这是第一本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至 20世纪 60 年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的最新技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。
本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。
语音识别|声纹识别技术|声纹分割聚类|语音合成|人声分离|编程实践与工程优化|配动手实践案例|邓力戴琼海等大咖力荐
序
初次认识本书作者王泉是在 2018 年暑假,当时我还在谷歌的研究部门工作。由于所在部门商业项目的需求,我和我的实习生张傲南正尝试解决在人数未知情况下声纹分割聚类的问题。苦于没有任何关于声纹技术的背景知识,我们十分渴望能够在谷歌内部找到志同道合的研究员共同推进这个项目。于是,我们查阅了谷歌最新发表的几篇与声纹技术相关的论文,发现所有论文的作者一栏都有王泉博士的名字。巧合的是,王泉和我也都毕业于清华大学自动化系。我们觉得王泉可能就是我们要找的理想合作者,于是我们联系了王泉寻求合作可能性。幸运的是,王泉爽快地答应了。
事后回顾,与王泉合作无疑是一个无比正确的选择。王泉的加入对项目的后续发展起到了决定性的作用。他对声纹技术的深刻理解及对新技术的执着追求使得这个合作项目迅速走上正轨。据我们所知,这个研究第一次将监督学习引入声纹分割聚类问题中,大幅提高了算法在说话人数量未知情况下的实验表现。最终,我们的研究结果发表在 ICASSP 2019,也就是语音领域最重要的国际会议之一。目前为止,我们通过
Google AI Blog 向外界发布的该项目的开源软件在 GitHub 平台上获得了超过 1200 个星标收藏。
语音及声纹技术是实现人工智能美好愿景中一个必备的关键组件。如今,王泉愿意把自己在语音领域,特别是声纹技术方面多年的研究及工程经验积累写成专业书籍惠及广大读者,是这个领域一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步快速普及和发展起到积极的推动作用,吸引更多的人才从事语音及声纹技术的研究和开发。作为业界第一本全面且系统地介绍声纹技术的书籍,作者花费了大量精力来保证深度和广度的平衡,使得处在不同阶段的声纹技术工程和研究人员都能从中获益。总结起来,本书有如下特色:
? 门槛方面,本书从最基础的人耳听觉感知和音频信号处理等技术讲起,即使没有任何音频基础的读者也能无障碍上手。
? 内容方面,本书不仅介绍了声纹识别,还介绍了声纹分割聚类,包含了本序开始提到的基于监督学习的声纹分割聚类和后续的发展。据我所知,无论是中文还是英文书籍,都从来没有系统介绍过这方面的内容。此外,本书还介绍了声纹技术在语音识别、语音合成、人声分离方面的应用,也是业内唯一一本系统介绍这些内容的专著。
? 本书内容不仅涵盖了 20 世纪 60 年代的最早期声纹识别方法,还介绍了大量 2019年和 2020 年发表的论文,紧随业界最新发展。
? 本书除了介绍学术内容,还有专门的章节(第 4 章)介绍工程部署,覆盖了声纹技术部署的诸多实际课题(如版本控制、分布式计算等)。这也是业内独一无二的。
? 本书配备了很多动手实践,教读者使用常用的 Python 工具包构建实例,进行实验,避免纸上谈兵。
? 本书为每一章配备了思考和练习题,因此本书也十分适合作为大学教材。
技术书籍的写作过程通常是比较枯燥的,在保证其科学严谨性的同时也要保证其可读性,才能发挥专业书籍的最大影响力。这需要科研的奉献精神、很强的执行力及大量的精力投入。从我和王泉合作的过程中,我发现王泉在这些方面的特质非常突出。
相信读者在研读本书时也能很快体会到这些点。同时,我们也期待未来会有更多活跃在声纹和语音领域一线的专家,将其专业知识以中文的形式出版成书,造福更多的华人学者。
字节跳动应用机器学习研究组负责人
王崇
前言
我是如何进入语音领域的
每个人最初进入自己的专业领域,或多或少都有着一些契机——可能是因为一篇文章、一本书,也可能是与师长前辈的一番对话,或者是偶尔参加的一个大师讲座。我进入语音分析领域,也属机缘巧合。
我在本科与博士期间所进行的研究,主要都是图像处理和计算机视觉相关的课题。由于当时深度学习方法尚未普及,我的研究更多是围绕底层的图像处理算法与几何模型的。
博士毕业后我的第一份工作,是在美国亚马逊公司从事光学文字识别(optical char?acter recognition,OCR)相关的研究和产品开发。由于文字识别本质上也是处理图像的一种,因此也算是与我的博士研究方向对口。然而,文字识别有着与其他计算机视觉问题十分不同的特性,那就是——文字是有着固定的书写方向和排版规律的,而且在书写、排版的方向上,字符与字符之间更是有着上下文的语义关联。一旦我们从图片中检测出文字的位置、高度及方向,接下来的问题,更像是一个一维的信号处理问题,而不是二维的图像识别问题。
当时亚马逊有着一套现成的语音识别框架,因此我们便将文字识别的问题,转换成了一个伪语音识别问题。我们在检测到的文字方向上,用滑动窗口来提取视觉特征,再将这些视觉特征当作分帧处理后的音频特征,输入到语音识别的框架里进行模型的训练。而模型的输出,与语音识别一样,都是字符序列。通过这种方法,我们发现文字识别的准确率远高于基于其他框架的方法,而在这项文字识别的研究过程中,通过对语音识别框架的使用,我也积累了大量的语音识别基础知识及工作经验。就这样,我从一名计算机视觉领域的研究者,平滑地转变为一名语音识别领域的研究者。
通过在亚马逊积累的知识与经验,在入职谷歌的时候,我有幸直接加入了谷歌的语音分析组,并开始从事声纹技术方面的研究与产品开发。在谷歌的新环境里,我很快适应了新的工作内容,这要归功于我在亚马逊工作期间的积累。
本书缘起
回忆起我在亚马逊工作的那段时光,虽然充实,但也有着很大的压力。我在亚马逊所在的组,是一个倾向于科研而非产品的组,因此相比于大多数亚马逊员工,来自工作环境本身的压力并不是很大。我所感受到的压力,更多是自身知识水平的严重不足导致的危机感。每次与组里的其他成员开会讨论,或者评审他们的代码、文档,都会遇到大量的概念与方法,是我当时难以理解的。而这些概念与方法,很多都是语音识别领域的基础知识。为此,每天下班后,我都会花大量的时间,查阅语音识别方面的教程、文献和网上的文章。然而,由于这些内容大多数都是英文的,对于当时刚刚接触语音识别领域的我来说,阅读起来效率很低。当时的我就十分感慨:如果有一本中文的教程,从基础概念开始,详细地介绍我所需要的领域专业知识,那该有多好。我也试着寻找过中文教程,只不过当时我能够找到的教程,其内容早已严重过时。
后来,我在谷歌成为团队主管,每次招聘新的团队成员,如果该成员没有语音领域相关的背景,那么也会面临着和我曾经入职亚马逊时相同的困境。每次我都会花大量的时间,向新的团队成员介绍音频信号处理和声纹识别相关的背景技术,以及声纹领域的研究前沿成果。
以上这些经历,便是我编写本书的原始动机。对于所有以中文为母语的朋友,我希望本书能够快速地帮助你掌握声纹技术所需要的基础知识,并熟悉最前沿的方法。我希望读者在读完本书之后,再去阅读其他与声纹相关的文章,或者使用与声纹相关的工具时,能够快速理解其核心内容,并通过与本书介绍的概念、方法进行联系和比较,大幅提升自己学习、工作的效率。
适读人群
本书的目标读者主要有两类:
1. 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深入浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。
2. 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。
阅读本书前,读者并不需要具备音频处理、语音识别等领域的相关知识,这部分内容会在第 2 章系统地学习。不过,建议读者在阅读本书前,先了解一些机器学习,尤其是神经网络、深度学习方面的基本概念。尽管这些概念在本书第 3 章里也会提及,但这些并不是本书的重点,所以不会在书中深入讲解。
本书特色
本书虽然以声纹技术为主线,但是并不仅局限于各种具体的声纹技术,而是会涉及所有与声纹技术相关的基础知识,并且会从工程方面对声纹技术的具体部署进行指导。本书涉及的一些知识点,例如听觉感知、音频传输、流式信号处理、模型量化压缩等,乍看上去与声纹技术并无任何直接关系,但这些都是在声纹领域的实际工作中不得不接触的内容。
此外,本书在介绍概念与方法的同时,还会具体介绍一些工具及程序库(以 Python语言为主)的使用,并提供一些实践案例。熟练掌握这些基础工具,将会大大提升日常研究与开发的效率。在每章内容的结尾,本书还设置了若干道思考题与练手实践项目,以帮助读者进一步巩固本章的重要知识点①。因此,与其说本书是一本声纹技术的教科书,不如说本书是一本针对所有声纹领域研究、工作人员的百科全书及实用手册。
本书不仅介绍了声纹领域经典的模型与方法,还涵盖领域里前沿的研究与应用,包括大量发表于 2019 年和 2020 年的文章。读者可以通过阅读本书对这些前沿工作的介绍,让自己的知识储备领先于同行,并对整个声纹领域的未来发展趋势有一个大致的了解。
本书结构
在第 1 章,我们先对声纹的基本概念进行直观的描述,然后纵观声纹技术的整个发展史,从最早的人工鉴定法,一直到最先进的深度学习法。由于声纹技术在学科领域划分里属于音频处理技术,所以在第 2 章,我们重点介绍一些与声纹技术密切相关的音频信号处理基本概念,为接下来的章节做准备。第 3 章是本书的核心章节,介绍声纹技术最重要的应用——声纹识别(又称“说话人识别”)。不过,掌握了声纹识别技
术,并不代表能立即将其投入到相关的产品与服务开发中。因此在第 4 章,我们讨论了一些声纹识别技术在实际工程部署中的相关问题,并介绍了几种常见的部署架构。第 5章介绍声纹技术的另一个核心应用——声纹分割聚类。第 6 章用较短的篇幅介绍声纹技术除识别与分割聚类外的其他应用。在第 7 章,我们探讨声纹技术目前尚待解决的问题,并展望声纹技术未来的发展方向。
作者