让《强化学习(第2版)》架起一座通往强化学习经典知识宝库的桥梁

管理员账号

2019-10-14

在 AlphaGo战胜李世石之后,AlphaZero以其完全凭借自我学习超越人类在各种棋类游戏中数千年经验的能力再次刷新了人类对人工智能的认识,也使得强化学习与深度学习的结合受到了学术界和产业界的前所未有的关注。

如今,《强化学习(第2版)》中文版的隆重上市,为机器学习领域的中国学者和学生架起一座通往强化学习经典知识宝库的桥梁。本书来自强化学习领域先驱者Richard S. Sutton和Andrew G. Barto之手,Csaba Szepesvari、Demis Hassabis、邓力、黃士傑、Pedro Domingos、漆远、Tom Mitchell、杨强、Yoshua Bengio、张钹、周志华等国内外行业大咖一致给出好评。

大家好,我是俞凯。

首先热烈祝贺《强化学习(第2版)》在国内正式发行。

“思想总是走在行动的前面,就好像闪电总是走在雷鸣之前”,这是德国诗人海涅的诗句,也再恰当不过地描述了我第一次读到本书英文原版时候的感觉。这本书的两位作者Richard S. Sutton 和 Andrew G. Barto 就是思想的先行者,而这本书所介绍的强化学习的思想,则是后深度学习时代技术发展最重要的火种之一。

以连接主义的神经网络为代表的深度学习,毫无疑问是21世纪初人工智能领域当中最重要且最具有实用意义的技术突破。它为基础研究走向产业应用做出了巨大的贡献,同时也赢得了巨大的声誉和关注,今年的图灵奖就被授予了深度学习的几位开创者。

但是如火如荼的产业应用其实并不能掩饰出我们基础研究当中对深度学习以及未来人工智能走向的担忧,越来越多的研究者已经把对深度学习的改良性研究视为工业界的应用技巧而开始关注与联结主义的经典深度学习不同的新的人工智能范式的探索。而这其中我看到了两个重要的趋势,一个是黑箱到白箱,另外一个是开环到闭环。

第一个就是将连接主义的、不可解释的神经网络式的黑箱学习,与先验知识、符号推理和经典的机器学习相结合,实现可解释、可推理、可操控的新一代的白箱学习,实现比较安全的人工智能。

另外一个也是我们非常关注的,从开环到闭环,也就是从与传统的、基于静态的数据和标签的数据的收集与模型的优化,是相互独立的两个过程的开环学习,逐渐转化成基于动态标签的数据本身的产生和标签的出现与模型的优化紧密耦合在一起的闭环学习。

强化学习就是这种闭环学习的人工智能范式的一个典型的代表。正如这本书当中所详细介绍的,它与传统的预先收集,或者是构造好数据以及标签的有监督学习有着非常本质的差别。它是在强调与环境的交互当中获取那些反映了真实目标达成度的反馈信号,强化学习会强调试错的学习和序列决策行为当中的动态和长期的效应,这些都使得强化学习适用于解决人工智能领域当中的一些深度的难题,比如说我本人所从事的认知型人际口语对话系统,强化学习的使用就具有无可替代的重要地位。当然更为重要的,在AlphaGo和AlphaZero这样一些非常有显示度的棋类对弈的研究当中,强化学习刷新了人类新的经验认知,使得学术界和产业界为强化学习与深度学习的结合,都给出了前所未有的关注。

《强化学习(第2版)》就是在这样的背景之下出版的。

这本书并不是一个实用主义的算法的普及材料,而是一本强化学习思想的深度解剖的材料,是强化学习基础理论的一个经典描述。这本书并没有从复杂的理论角度、算法角度对强化学习的理论和方法进行形式化的推导,而更多的是从基本的思想出发,深入浅出地介绍了各个基本概念。它同时也包含了很多与时俱进的最新的应用成果和作者最新的一些思想。这本书既可以是一个初级教材,也可以作为研究者自学的一个入门教程。

在这本书的翻译过程当中,Richard S. Sutton和Andrew G. Barto还特意为中国的读者们写了一段寄语,其中提到“希望本书的中文译本能够促进中国学生产生更多的新的思想,为世界范围的强化学习的研究繁荣做出贡献”,这一期望也使得作为翻译者的我倍感荣幸。也期望本书的中文译本能够让他们的思想为更多的中国研究者所了解,作为一个火种在中国孕育,并且产生人工智能前沿研究的各种新的思想。

读者评论

相关专题

相关博文

  • 机器学习:数据驱动的科学

    机器学习:数据驱动的科学

    管理员账号 2017-05-27

    小编说:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。 机器学习,也被称为统计机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测...

    管理员账号 2017-05-27
    1181 0 0 0
  • 你听过无人驾驶,但你了解无人驾驶的算法吗?

    你听过无人驾驶,但你了解无人驾驶的算法吗?

    管理员账号 2017-05-26

    小编说:我们已经拉开了全自动无人驾驶的序幕,在幕布之后是我们精彩的未来,但你可能不知道的是无人驾驶系统是一个复杂的系统,系统主要由三部分组成:算法端、Client端和云端。算法端从传感器原始数据中提取有意义的信息以了解周遭的环境情况,...

    管理员账号 2017-05-26
    1426 0 0 0
  • 无人驾驶的分级以及产品化后会带来的改善

    无人驾驶的分级以及产品化后会带来的改善

    管理员账号 2017-05-24

    小编说:人工智能是时代,机器人开始作为服务的承载体出现,其中的一个具体事例就是无人驾驶的产品化。无人驾驶并不是一个单一的新技术,而是一系列技术的整合。本文将向您介绍这一技术对生活带来的改善以及无人驾驶的分级。本文选自《第一本无人驾驶技...

    管理员账号 2017-05-24
    311 0 0 0