深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。
本书分为三大部分,覆盖深度强化学习的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,包括第 1~6 章。第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者非常有用,包括第 7~12 章。第三部分提供了丰富的应用案例,包括 AlphaZero、让机器人学习跑步等,包括第 13~17 章。
本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。
中国年轻学者和工程师编写的深度强化学习著作,全面涵盖深度强化学习的基础理论、算法实现、代码细节、实践应用、实战技巧、科研前瞻等,一本书轻松搞懂深度学习、强化学习、深度Q网络、策略梯度、模仿学习、分层强化学习、并行计算、多智能体强化学习等,理论与代码配套,轻松易懂,案例丰富,英文版同步发行,得到郭毅可、陈宝权、金驰、李克之等海内外大学教授一致好评。
为什么写作本书
人工智能已经成为当今信息技术发展的主要方向,国务院印发的《新一代人工智能发展规划》中指出:2020 年我国人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元;2030 年人工智能核心产业规模超过 1 万亿元,带动相关产业规模超过 10 万亿元。深度强化学习将结合深度学习与强化学习算法各自的优势来解决复杂的决策任务。近年来,归功于 DeepMind AlphaGo 和 OpenAI Five 这类成功的案例,深度强化学习受到大
量的关注,相关技术广泛用于金融、医疗、军事、能源等领域。为此,学术界和产业界急需大量人才,而深度强化学习作为人工智能中的智能决策部分,是理论与工程相结合的重要研究方向。本书将以通俗易懂的方式讲解相关技术,并辅以实践教学。
本书主要内容
本书分为三大部分,以尽可能覆盖深度强化学习所需要的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,请见第 1~6 章。
第二部分是一些精选的深度强化学习研究题目,请见第 7~12 章,这些内容对准备开展深度强化学习研究的读者非常有用。为了帮助读者更深入地学习深度强化学习,并把相关技术用于实践,本书第三部分提供了丰富的例子,包括 AlphaZero、让机器人学习跑步等,请见第 13~17 章。
如何阅读本书
本书是为计算机科学专业背景、希望从零学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适用于没有很强机器学习背景、但是希望快速学习深度强化学习并把它应用到具体产品中的软件工程师。
鉴于不同的读者情况会有所差异(比如,有的读者可能是第一次接触深度学习,而有的读者可能已经对深度学习有一定的了解;有的读者已经有一些强化学习基础;有的读者只是想了解强化学习的概念,而有的读者是准备长期从事深度强化学习研究的),这里根据不同的读者情况给予不同的阅读建议。
1. 要了解深度强化学习。
第 1~6 章覆盖了深度强化学习的基础知识,其中第 2 章是最关键、最基础的内容。如果您已经有深度学习基础,可以直接跳过第 1 章。第 3 章、附录 A 和附录 B 总结了不同的算法。
2. 要从事深度强化学习研究。
除了深度学习的基础内容,第 7 章介绍了当今强化学习技术发展遇到的各种挑战。您可以通过阅读第 8~12 章来进一步了解不同的研究方向。
3. 要在产品中使用深度强化学习。
如果您是工程师,希望快速地在产品中使用深度强化学习技术,第 13~17 章是您关注的重点。您可以根据业务场景中的动作空间和观测种类来选择最相似的应用例子,然后运用到您的业务中。
董豪
2021 年 4 月
图1.18 卷积核计算示例种的第二个通道的计算就有误,应该是-1才对,书上却说是0,烦请编辑或其他读者重新check一下是不是有误。