揭开《钢铁侠》AI管家贾维斯神秘面纱的扛鼎之作!

博文小编

2021-02-25

《钢铁侠》里的AI管家贾维斯,想必大家都不陌生,这样可以像人一样和自己对话的AI管家,我们是不是都想拥有一个?

贾维斯之所以可以像人一样和我们对话,必然离不开语音识别技术的加持。

如今,从语音输入法到智能家居等,生活中到处都可以通过语音进行人机交互。

拥有一个贾维斯的梦想好像越来越近了!

为了让这个梦想更近一步,学习好语音识别技术势在必行!

今天,博文菌就给大家推荐一本语音识别领域的扛鼎之作——《人工智能:语音识别理解与实践(精装版)》,该书被列入“国家出版基金支持项目”,并入选为《人工智能出版工程》系列丛书。

—— 全新升级 ——

2014-2019年,随着工业界对自然口语交互系统的应用热情空前高涨,以及研究界在基于深度学习的语音和语言处理技术上的大幅进步,一系列新的甚至颠覆性的理论、技术、算法应用产生了,这使得语音识别系统在经典大词汇连续语音识别任务上的错误率大幅下降,甚至逼近了人类水平。

同时,基于深度学习的自然语言处理技术也取得了长足进展,尤其是任务型口语对话系统的各个模块都广泛采用了深度学习技术并有了提升。

本书作为《解析深度学习:语音识别实践》的续作,在它的基础上做了大量改写,并对内容有大幅补充,详细总结了最新的语音识别算法及应用技术,以及在口语对话系统研究中基于深度学习的自然语言处理技术。

—— 第四代语音识别技术 ——

作者在背景材料中充分证实了自20世纪90年代早期起,语音识别领域研究者提出的深度动态生成模型(dynamic generative models)的丰富性,同时将其与最近快速发展的深度鉴别性模型在统一的框架下进行了比较。

书中以循环神经网络和隐动态模型为例,对这两种截然不同的深度模型进行了全方位有见地的优劣比较。这为语音识别中的深度学习发展和其他信号及信息处理领域开启了一个新的激动人心的方向。

以深度学习为主要内容的第四代技术是本书所详细阐述的,特别是DNN和深度生成模型的无缝结合,将使得知识扩展可以在一种最自然的方式下完成。

总的来说,本书可能成为语音识别领域工作者在第四代语音识别技术时代的重要参考书。
全书不但巧妙地涵盖了一些基本概念,使读者能够理解语音识别全貌,还对近两年兴盛起来的强大的深度学习方法进行了深入地介绍。
读完本书,读者将可以看清前沿的语音识别是如何构建在深层神经网络技术上的,可以满怀自信地去搭建识别能力达到甚至超越人类的语音识别系统。

—— 两个技术体系的梳理 ——

虽然人类的语音感知与语言认知天然地作为一个完整系统在工作,但我们仍然经常听到一种被广泛传播的错误理解:语音识别与自然语言处理是两个独立的技术体系。

本书从完整的口语对话系统角度,梳理了语音识别与自然语言理解的相互关系,介绍了口语对话系统的基本概念、自然语言理解与口语理解的异同,以及对话状态跟踪与语义理解的异同等。

对于深度学习在理解和对话中的应用,不仅介绍了基于纯文本的理解和对话交互的深度学习技术,还介绍了如何在带有错误的语音识别结果上做更好的语言理解和对话管理的相关处理框架与应用技术。

这些深度学习技术是未来构建认知型口语交互系统的关键。

我们相信,本书对语音识别、语言理解和口语对话给出了一个更为完整的技术图谱,它将促进真实世界的人机智能口语交互系统的技术发展,也将有益于机器学习、智能语音及语言处理领域的研究者和实践者。

希望本书能够带你打开语音识别的大门,遇见未来世界!

关于本书作者

● 俞栋,电气电子工程师学会会士(IEEE Fellow)、国际计算机学会杰出科学家(ACM Distinguished Scientist)。现任腾讯人工智能实验室副主任、腾讯公司杰出科学家,香港中文大学(深圳)、上海交通大学、浙江大学等多所高校的客座/兼职教授。在基于深度学习的语音识别和分离技术上进行了一系列开创性工作,极大地推动了语音处理领域的发展。

● 邓力,人工智能、机器学习和语音语言信号处理获得者著名专家,曾任微软首席人工智能科学家和深度学习技术中心研究经理。研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等,在相关领域做出了重大贡献。
● 俞凯,上海交通大学计算机科学与工程系教授,思必驰公司创始人、首席科学家。清华大学自动化系学士、硕士,剑桥大学工程系博士。

● 钱彦旻,上海交通大学计算机科学与工程系副教授,博士生导师,上海交大–思必驰联合实验室副主任。华中科技大学学士、清华大学博士、英国剑桥大学工程系博士后,上海市青年英才扬帆计划获得者。

《人工智能:语音识别理解与实践(精装版)》

俞栋 邓力 俞凯 钱彦旻 著

本书全面系统地展示了语音识别、语言理解和口语对话技术的完整技术图谱,具有非常强的前瞻性,对促进真实世界的人机智能口语交互技术的发展有积极的促进作用;对于从事机器学习、智能语音及语言处理领域的研究人员和实践人员而言,是一本非常有价值的案头参考。

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5416 735 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3299 36 0 1
  • czk 2017-07-29
    5865 28 0 1