语音识别领域【经典著作】重磅升级！从AI语音识别原理到工业实战，这本全彩手册带你贯通语音识别技术栈

当语音交互成为智能手机、智能车载、智慧办公的“刚需”，当大模型时代重塑语音技术格局，你是否需要一本既能吃透底层原理，又能紧跟技术前沿的“案头指南”？
《语音识别：原理与应用（第3版）（全彩）》来了！

这是一本从“语音信号基础”到“语音大模型”全链路覆盖的华语原创力作，更是工业界实战派与学术界资深教授联手打造的“语音技术百科全书”。
本书由洪青阳与李琳编著，第1版和第2版先后于2020年6月和2023年2月出版，内容涵盖声学特征提取、隐马尔科夫模型（HMM）、语言模型、加权有限状态转换器（WFST）、端到端语音识别、Kaldi、WeNet等基础原理和开源工具，图文并茂，深入浅出，受到读者的普遍欢迎，被国内多家高校和企业选用，已累计发行超1万册。

第3版有哪些更新？

随着大模型和新的开源工具发布，本书与时俱进更新内容。
相对第2版，第3版原理部分新增Transformer结构、Conformer流识别、语音大模型、Zipformer等内容，特别是卷积下采样、注意力机制、相对位置编码、Transducer等细节，并对原有传统技术介绍做了一些删减合并；应用部分新增Whisper、Paraformer、FunASR和sherpa-onnx等开源模型/工具介绍，均来自项目经验总结，紧扣工业应用，极具指导性和实用性。

三大核心亮点，重新定义语音识别教材

01. 从0到1，构建语音识别知识大厦

基础扎实：从语音产生的物理原理、声波采样量化，到声学特征提取（MFCC、FBank等经典方法），手把手带你叩开语音处理的大门。
体系完整：系统梳理隐马尔可夫模型（HMM）、高斯混合模型（GMM）等传统框架，深度解析DNN-HMM、端到端（E2E）等前沿架构，一网打尽50年技术脉络。
全彩图解：数百幅精心绘制的彩色插图，可视化呈现HMM状态转移、注意力机制原理、解码器工作流程等复杂概念，让抽象理论“秒懂化”。

02. 工业级实战，玩转开源工具链

工具全覆盖：Kaldi、WeNet、FunASR、sherpa-onnx……手把手教你用工业级开源框架搭建识别系统，从数据预处理到模型训练、解码部署全流程实操。
大模型加持：新增Whisper大模型技术解析，详解音频离散化、语音文本对齐等核心技术，紧跟AIGC时代语音技术变革。
工程经验分享：信道适配、模型压缩、端侧部署（嵌入式设备/手机SDK）等落地难题，书中均有一线工程师总结的“避坑指南”。

03. 配套资源拉满，学习效率翻倍

教学神器：配套PPT课件、部分核心算法讲解视频，课堂自学两相宜；
课后无忧：提供课后习题答案，边学边练巩固知识点；
与时俱进：内容随技术迭代更新，从传统GMM-HMM到Transformer、Conformer等最新架构，一次掌握“语音识别的现在与未来”。

内容简介

第3版包含以下章节：
第1章语音识别概论，介绍人类语音的产生和感知过程，语音识别的关键技术、发展历史等。
第2章语音信号基础，介绍声音的采集和量化过程，以及编码和存储格式。
第3章语音特征提取，介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。
第4章 HMM，介绍双重随机过程，以及HMM的三大问题。
第5章 GMM-HMM，介绍高斯混合模型的定义和重估计公式，并结合例子讲解GMM如何与HMM结合，以及对应的具体参数形式。
第6章基于HMM的语音识别，介绍单音子声学模型和Viterbi解码过程，以及音素的上下文建模，包括双音子和三音子模型。
第7章 DNN-HMM，介绍深度学习在语音识别中的应用，包括CNN、LSTM、TDNN等网络。
第8章语言模型，介绍语言模型的训练过程及其在语音识别中的作用。
第9章 WFST 解码器，介绍动态和静态的解码网络，以及WFST、HCLG等关键技术。
第10章 Kaldi训练实例，首先介绍Kaldi的下载与安装步骤，然后以aishell-1中文数据库为例，介绍如何训练和测试模型。
第11章端到端语音识别，介绍CTC、RNN-T、Attention等端到端语音识别系统。
第12章 Transformer结构，详细介绍Transformer的模型结构，包括卷积下采样、位置编码、自注意力等关键模块。
第13章 Conformer流识别，介绍Conformer的模型细节，包括卷积模块、相对位置编码等，以及基于Conformer的流识别过程。
第14章语音大模型，介绍大语言模型（LLM）、音频离散化、语音文本对齐、流式打断、对话大模型等内容。
第15章 WeNet实践，介绍使用WeNet进行CTC/Attention模型的训练和解码过程。
第16章工业应用实践，介绍如何封装语音识别动态库，如何调用和调优，以及嵌入式移植和端侧部署过程。

谁该读这本书？

✅ 高校学生/研究者：打牢理论基础，掌握前沿模型（如端到端架构、语音大模型），接轨学术前沿；
✅ AI工程师/从业者：实战派专属！Kaldi/WeNet部署经验、工业级优化技巧，直接搬上生产线；
✅ 技术爱好者：无须高深数学背景，从语音原理到趣味应用（如闽南语识别系统研发故事），轻松入门AI语音。

作者背景：学术界+工业界的“双料大咖”

洪青阳：厦门大学教授，深耕语音识别20年，主持3项国家自然科学基金，研发闽南语识别系统落地华为手机，开源声纹工具ASV-Subtools惠及全球开发者；
李琳：厦门大学博导，国家重点研发计划项目骨干，福建省科技进步奖得主，指导团队在国际竞赛中屡获佳绩。两位作者将高校教学经验与华为、海信等企业合作的一线实战心得融入书中，真正实现“懂原理、会落地、能创新”。
无论是想入门AI语音的“技术小白”，还是寻求突破的“工业老兵”，这本书都能成为你案头的“语音识别万事通”。
语音识别，是人机交互的桥梁，更是AI落地最广泛的场景之一。
这本书不仅是一本教材，更是一把钥匙——帮你打开语音技术的大门，看见从实验室到千万设备的技术落地之路。
2025年，语音技术正与大模型、多模态深度融合，现在上车，为时未晚！
转发给身边的技术伙伴，一起开启语音识别的进阶之旅吧！

图书分类

领导力Lead可持续战略成功：班长的战争

特色专题

帮助

语音识别领域【经典著作】重磅升级！从AI语音识别原理到工业实战，这本全彩手册带你贯通语音识别技术栈

博文小编

第3版有哪些更新？

01. 从0到1，构建语音识别知识大厦

02. 工业级实战，玩转开源工具链

03. 配套资源拉满，学习效率翻倍

内容简介

谁该读这本书？

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。