构建通用人工智能的关键就是无监督学习,不需要标签来训练模型,最简单的方法就是使用深度生成模型。本书主要讲述如何将概率建模和深度学习结合起来去构建可以量化周边环境不确定性的强大的 AI 系统。这种AI系统可以从生成的角度来理解周边世界。本书涵盖了深度生成模型的多种类型,包括自回归模型、流模型、隐变量模型、基于能量的模型等。这些模型构成了以 ChatGPT 为代表的大语言模型,以及以 Stable Diffusion 为代表的扩散模型等深度生成模型背后的技术基石。
《深度生成模型(全彩)》适合具备微积分、线性代数、概率论等大学本科水平,并且了解机器学习、Python 及PyTorch 等深度学习框架的学生、工程师和研究人员阅读。无论读者的背景如何,只要对深度生成模型有兴趣,都能从本书中获益。
ChatGPT\Stable Diffusion\DALL-E\MidJourney等AIGC模型的技术基石,深学细悟筑基石,任凭风浪起,稳步迈进通用人工智能
译者简介
王冠,北京大学物理及计算机学士,香港科技大学物理研究型硕士,谷歌机器学习开发者专家,先后在多个学术和工业研究实验室从事机器学习、计算机视觉和自然语言处理的研发,并在保险行业应用人工智能方面有多年的经验,《Rasa实战:构建开源对话机器人》作者,发表了数篇相关领域的学术论文,拥有多项工业专利。他还是一位活跃的技术博主和开源社区贡献者,在GitHub上的开源项目获得了超过12,000个星标。
人工智能(Artificial Intelligence,AI)在我们的世界里无处不在:很多关于AI 的电影、新闻总是在关注 AI,CEO 们也一直在谈论 AI。最重要的是,我们日常生活也已经离不开 AI,我们的手机、电视、冰箱乃至吸尘器都已经演化为智能手机、智能电视、智能冰箱和扫地机器人。尽管从 20 世纪 50 年代开始,AI 就已经是一个单独学科,但直到现在,我们仍一边使用和依赖着 AI,一边却并不能完全理解或准确构建 AI。
长期以来,研究者们一直在试图创造出可以通过数据和知识的处理来模仿、理解和帮助人类的 AI 系统。在很多特定的情况和任务下,AI 无论在速度还是在准确度方面都已经大大超过人类。现在的 AI 系统不仅仅是去从生物学或者认知学意义上模仿人类行为,而是又快又准地作出决策,比如打扫房间时的导航过程或者提升影片图像的质量。
在这些任务中,概率论起到了关键性作用,因为有限的或者低质量的数据或是系统本身的限制让我们必须对不确定性作出量化。此外,深度学习在学习具有层次结构的数据表征方面已经崭露头角。深度学习的灵感来自生物学中的神经网络,但深度学习的设定和生物学意义上的神经元组织依然相差甚远。
无论如何,深度学习已将 AI 带到了一个全新的水平,在许多决策任务中表现出前所未有的优势。我们的下一步应该结合深度学习和概率论这两个范畴,去构建可以量化周边环境不确定性的强大 AI 系统。
本书是在讲什么
本书主要讲述如何将概率建模和深度学习结合起来去构建 AI 系统。这已经不只是传统意义上的预测建模,而是将监督学习与非监督学习结合在一起。这样构建的 AI 系统被称作深度生成模型,从生成的角度来理解周边世界。深度生成模型认为每一个发生的现象都是因为背后的生成过程,该过程定义了随机变量及其随机过程的联合分布,来描述不同事件是如何和以什么顺序发生的。称其为“深度”,是因为我们使用深度神经网络来参数化这个分布。深度生成模型有两个显著的特点:
首先,应用深度神经网络可以丰富而灵活地进行不同分布的参数化;
其次,使用概率论来对随机依赖进行正式化的建模,可以确保推导过程的严格性,防止可能的逻辑漏洞。
概率论还提供了一个统一的框架,使得似然函数在量化不确定性和定义目标函数中起着核心作用。
本书适合哪些读者
本书适合具备大学本科水平的微积分、线性代数、概率论知识,以及机器学习、深度学习、Python 和 PyTorch 或者其他深度学习框架基础知识的学生、工程师和研究人员阅读。
对深度生成模型感兴趣的不同背景的读者都会从本书受益,如有计算机科学、工程学、数据科学、物理学及生物信息学等相关背景的读者。
本书通过一些实际例子和代码来让读者了解基本概念,书中内容对应的完整代码开源在 GitHub 网站上面:
https://github.com/jmtomczak/intro_dgm.
本书的终极目标是希望勾画出深度生成模型的几种最重要的技术,最终让读者可以自己构建和实现新的模型。
本书结构
本书一共有 8 章,每一章都可以独立阅读,读者也可以根据自己的需求调整不同章节之间的阅读顺序。
第 1 章介绍了深度生成模型的基本概念和重要分类。
第 2 章、第 3 章和第 4 章讨论了对于边缘分布的建模。
第 5 章和第 6 章介绍了对于联合分布的建模。
第 7 章介绍了一类不能通过基于似然的目标函数学习的隐变量模型。
第 8 章指出深度生成模型还可以被应用于高速发展的神经压缩领域。
所有章节都附有帮助读者理解如何具体实现建模方法的代码。
参考文献中包含了本书内容的原始论文,为感兴趣的读者提供更多的阅读资料。
深度生成模型是一个宽泛的研究方向,本书不可能包含到所有相关的奇思妙想。如果不慎漏掉了一些研究文献,欢迎读者指正。
最后,我想要感谢我的太太 Ewelina,她在我写作本书的过程中给了我莫大的力量和帮助。我也感谢我父母对我一如既往的支持,以及帮我审校本书第一版本和代码的我的兄弟。
Jakub M. Tomczak