深入浅出深度学习:原理剖析与Python实践
  • 推荐1
  • 收藏9
  • 浏览4.4K

深入浅出深度学习:原理剖析与Python实践

黄安埠 (作者)  汪达文 (责任编辑)

  • 书  号:978-7-121-31270-0
  • 出版日期:2017-06-01
  • 页  数:344
  • 开  本:16(170*240)
  • 出版状态:图书立项
  • 维护人:刘皎
纸质版 ¥79.00
《深入浅出深度学习:原理剖析与Python实践》介绍了深度学习相关的原理与应用,全书共分为三大部分,第一部分主要回顾了深度学习的发展历史,以及Theano的使用;第二部分详细讲解了与深度学习相关的基础知识,包括线性代数、概率论、概率图模型、机器学习和最优化算法;在第三部分中,针对若干核心的深度学习模型,如自编码器、受限玻尔兹曼机、递归神经网络和卷积神经网络等进行详细的原理分析与讲解,并针对不同的模型给出相应的具体应用。
《深入浅出深度学习:原理剖析与Python实践》适合有一定高等数学、机器学习和Python编程基础的在校学生、高校研究者或在企业中从事深度学习的工程师使用,书中对模型的原理与难点进行了深入分析,在每一章的最后都提供了详细的参考文献,读者可以对相关的细节进行更深入的研究。最后,理论与实践相结合,《深入浅出深度学习:原理剖析与Python实践》针对常用的模型分别给出了相应的应用,读者也可以在Github中下载和查看《深入浅出深度学习:原理剖析与Python实践》的代码(https://github.com/innovation-cat/DeepLearningBook)。
作者来自QQ音乐,长期从事算法与个性化推荐工作,有大型互联网公司的一手实践经验。内容较全面,理论与实践结合较好。表达平易近人、清晰明快。
黄安埠,2012年毕业于清华大学,获硕士学位,在校期间活跃于TopCoder等编程竞赛社区。现为腾讯基础研究高级工程师,研究领域包括个性化推荐、自然语言处理和大规模的相似度优化计算,特别是对于深度学习在推荐系统的应用有深入的研究,并申请了国内十余项相关专利。
本书的配套代码,读者也可以在作者的Github主页中下载查看:
https://github.com/innovation-cat/DeepLearningBook)
What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems from our vast diversity, not from any single, perfect principle.
—— Marvin Minsky
智能(Intelligence)这个词的出现最早可以追溯到古希腊时期,当时人们已经开始梦想能创造出一种像人类一样,具有独立思考和推理能力的机器,但由于受到当时生产力水平的制约,古人对“智能”的研究更多的是停留在理论探索阶段。到了近代,尤其是具有划时代意义的达特茅斯会议的召开,标志着人工智能开始从理论探索进入到理论与应用相结合的实践阶段。从世纪年代开始,人工智能的发展大致经历了三个阶段,分别从最初的逻辑推理,到统计机器学习,再到近年来逐渐占据主流地位的深度学习。
虽然深度学习是一门以神经网络为核心的学科,但人们普遍认为深度学习始于2006年,当时Hinton等人提出基于深度置信网络(DBN)逐层预训练的方法来训练深层模型,并首次提出了深度学习的概念。此后,深度学习开始进入人们的视野,但那时候深度学习更多的是少数顶尖科学家研究的领域,并没有得到大规模的应用和推广。直到2012年,Hinton和他的两个学生Alex Krizhevsky、Illya Sutskever,将卷积神经网络应用到ImageNet竞赛中,并取得了分类错误率15%的成绩,这个成绩比第二名低了近个11百分点,这一历史性的突破,使得人们开始意识到深度学习所拥有的巨大潜力,在这之后,深度学习开始在工业界,尤其是计算机视觉、语音识别和自然语言处理等领域,大规模应用,并且取得了比以往更好的效果。到了2016年,随着AlphaGo的横空出世,它的惊人表现将深度学习的热度推向了顶峰,因此2016年也被很多学者认为是人工智能元年,事实上,当前人工智能已经影响到人们生活的各个方面,如语音助手、语音搜索、无人驾驶汽车、人脸识别等,为人们的生活带来了极大的方便,人工智能也必将在今后相当长的一段时间内,继续推动着人类的技术发展。
在本书编写的过程中,市面上有关深度学习方面的中文书籍较少,因此作者希望能从理论和应用相结合的角度,对深度学习的相关知识进行较为全面的梳理,本书既可以作为初级读者的入门书籍,也适合中级读者用来加深对理论知识的理解。本书覆盖了线性代数、概率论、数值计算与最优化等基础知识,以及深度学习的两大核心:概率图模型和深度神经网络。具体来说,本书由以下三大部分构成:
第1部分是概要,共分为两章。第1章主要阐述了深度学习、人工智能相关的背景,深度学习的原理,以及当前流行的深度学习框架对比;第2章介绍了深度学习框架Theano的使用,着重对Theano的基础知识和编程范式进行了讲解。
第2部分是与深度学习相关的数学和机器学习方面的基础知识,共分为5章。第3章介绍线性代数基础知识;第4章介绍了概率论和数理统计相关的知识;第5章介绍概率图模型,包括贝叶斯网络和马尔科夫网络的原理;第6章简要回顾机器学习的基础知识,并介绍机器学习模型与深度学习模型之间的联系;第7章,深入分析几种常用的机器学习最优化方法,包括具有一阶收敛速度的梯度下降法和共轭梯度法,以及具有二阶收敛速度的牛顿法和拟牛顿法。
第3部分介绍了各种常见的深度学习模型,包括一系列的深度学习模型理论及其应用,本部分共分为6章。第8章介绍全连接前馈神经网络,包括网络结构和激活函数的相关知识;第9章将深入分析反向传播算法,以及梯度消失问题。梯度消失也是深度神经网络训练的一大难点,我们将介绍当前有效解决深度网络训练中过拟合和欠拟合的常见技巧,包括Batch Normalization、残差网络、Dropout等;第10章介绍本书的第一种无监督网络模型:自编码器及其变种模型;第11章介绍一种深度概率图模型——受限玻尔兹曼机,与自编码器一样,受限玻尔兹曼机也是一种常见的无监督网络模型,最后介绍如何将受限玻尔兹曼机应用于个性化推荐领域中;第12章,将介绍一种应用非常广泛的网络结构——递归神经网络,深入分析递归网络的结构及其变形网络,如LSTM、GRU等,并以语言模型为例,介绍递归神经网络在自然语言处理中的应用;第13章介绍另一种常见的模型结构:卷积神经网络,包括卷积网络的卷积层和池化层结构设计,以及其在文本分类中的应用。
关于本书的源代码,读者也可以从Github上(https://github.com/innovation- cat/DeepLearningBook)下载查看。深度学习近年来处于高速发展的阶段,很多更先进的理论和算法正被不断提出,因此本书无法覆盖所有的模型与算法,加之作者水平和精力所限,书中难免有错漏之处,承蒙各位读者不吝告知,如对本书有任何疑问或建议,读者可以通过邮箱huanganbu@gmail.com给我反馈。
在本书的撰写过程中,得到了很多行业专家和好友的支持,在此,特别感谢香港科技大学计算机系主任杨强教授、原百度网页搜索高级总监邓侃博士、原Twitter工程总监陈尔东先生,感谢他们在百忙之中抽时间审阅我的书稿,提出了很多宝贵的意见,并为我写下推荐序。
在本书的撰写过程中,还得到了电子工业出版社刘皎编辑和汪达文编辑的极大帮助,在此表示衷心的感谢;感谢我在腾讯公司的上级李深远先生对我工作的支持,也感谢其他各位关心我工作的朋友和同事。
最后,非常感谢我的家人对我工作的理解和支持,他们在我写作的过程中给予了很大的照顾和鼓励,也是促使我能完成本书写作的最大动力。
黄安埠
年月于深圳

目录

第1 部分 概要 1
1 绪论 2
1.1 人工智能、机器学习与深度学习的关系 3
1.1.1 人工智能——机器推理 4
1.1.2 机器学习——数据驱动的科学 5
1.1.3 深度学习——大脑的仿真 8
1.2 深度学习的发展历程 8
1.3 深度学习技术概述 10
1.3.1 从低层到高层的特征抽象 11
1.3.2 让网络变得更深 13
1.3.3 自动特征提取 14
1.4 深度学习框架 15
2 Theano 基础 19
2.1 符号变量 20
2.2 符号计算的抽象——符号计算图模型 23
2.3 函数 26
2.3.1 函数的定义 26
2.3.2 Logistic回归 27
2.3.3 函数的复制 29
2.4 条件表达式 31
2.5 循环 32
2.6 共享变量 39
2.7 配置 39
2.7.1 通过THEANO_FLAGS配置 40
2.7.2 通过. theanorc文件配置 41
2.8 常用的Debug技巧 42
2.9 小结 43
第2 部分 数学与机器学习基础篇 45
3 线性代数基础 46
3.1 标量、向量、矩阵和张量 46
3.2 矩阵初等变换 47
3.3 线性相关与向量空间 48
3.4 范数 49
3.4.1 向量范数 49
3.4.2 矩阵范数 53
3.5 特殊的矩阵与向量 56
3.6 特征值分解 57
3.7 奇异值分解 58
3.8 迹运算 60
3.9 样例:主成分分析 61
4 概率统计基础 64
4.1 样本空间与随机变量 65
4.2 概率分布与分布函数 65
4.3 一维随机变量 66
4.3.1 离散型随机变量和分布律 66
4.3.2 连续型随机变量和概率密度函数 67
4.4 多维随机变量 68
4.4.1 离散型二维随机变量和联合分布律 69
4.4.2 连续型二维随机变量和联合密度函数 69
4.5 边缘分布 70
4.6 条件分布与链式法则 71
4.6.1 条件概率 71
4.6.2 链式法则 73
4.7 多维随机变量的独立性分析 73
4.7.1 边缘独立 74
4.7.2 条件独立 74
4.8 数学期望、方差、协方差 75
4.8.1 数学期望 75
4.8.2 方差 76
4.8.3 协方差 76
4.8.4 协方差矩阵 78
4.9 信息论基础 81
4.9.1 信息熵 81
4.9.2 条件熵 83
4.9.3 互信息 84
4.9.4 相对熵与交叉熵 84
5 概率图模型 87
5.1 生成模型与判别模型 89
5.2 图论基础 90
5.2.1 图的结构 90
5.2.2 子图 91
5.2.3 路径、迹、环与拓扑排序 92
5.3 贝叶斯网络 95
5.3.1 因子分解 96
5.3.2 局部马尔科夫独立性断言 99
5.3.3 I-Map与因子分解 100
5.3.4 有效迹 103
5.3.5 D-分离与全局马尔科夫独立性 108
5.4 马尔科夫网络 108
5.4.1 势函数因子与参数化表示 109
5.4.2 马尔科夫独立性 111
5.5 变量消除 114
5.6 信念传播 116
5.6.1 聚类图 116
5.6.2 团树 120
5.6.3 由变量消除构建团树 123
5.7 MCMC采样原理 126
5.7.1 随机采样 127
5.7.2 随机过程与马尔科夫链 128
5.7.3 MCMC采样 132
5.7.4 Gibbs采样 134
5.8 参数学习 137
5.8.1 最大似然估计 137
5.8.2 期望最大化算法 138
5.9 小结 140
6 机器学习基础 142
6.1 线性模型 143
6.1.1 线性回归 143
6.1.2 Logistic回归 148
6.1.3 广义的线性模型 150
6.2 支持向量机 151
6.2.1 最优间隔分类器 152
6.2.2 对偶问题 155
6.2.3 核函数 156
6.3 朴素贝叶斯 160
6.4 树模型 162
6.4.1 特征选择 163
6.4.2 剪枝策略 165
6.5 聚类 166
6.5.1 距离度量 167
6.5.2 层次聚类 168
6.5.3 K-means聚类 171
6.5.4 谱聚类 172
7 数值计算与最优化 177
7.1 无约束极小值的最优化条件 177
7.2 梯度下降 179
7.2.1 传统更新策略 181
7.2.2 动量更新策略 183
7.2.3 改进的动量更新策略 184
7.2.4 自适应梯度策略 187
7.3 共轭梯度 188
7.4 牛顿法 192
7.5 拟牛顿法 194
7.5.1 拟牛顿条件 194
7.5.2 DFP算法 195
7.5.3 BFGS算法 196
7.5.4 L-BFGS算法 197
7.6 约束最优化条件 200
第3 部分 理论与应用篇 205
8 前馈神经网络 206
8.1 生物神经元结构 207
8.2 人工神经元结构 208
8.3 单层感知机 209
8.4 多层感知机 212
8.5 激活函数 217
8.5.1 激活函数的作用 217
8.5.2 常用的激活函数 219
9 反向传播与梯度消失 225
9.1 经验风险最小化 227
9.2 梯度计算 228
9.2.1 输出层梯度 228
9.2.2 隐藏层梯度 230
9.2.3 参数梯度 234
9.3 反向传播 235
9.4 深度学习训练的难点 237
9.4.1 欠拟合——梯度消失 237
9.4.2 过拟合 240
10 自编码器及其相关模型 243
10.1 自编码器 243
10.2 降噪自编码器 245
10.3 栈式自编码器 247
10.4 稀疏编码器 250
10.5 应用:cifar10图像分类 254
11 玻尔兹曼机及其相关模型 258
11.1 玻尔兹曼机 258
11.2 能量模型 261
11.2.1 能量函数 261
11.2.2 从能量函数到势函数 262
11.2.3 从势函数到概率分布 263
11.3 推断 264
11.3.1 边缘分布 265
11.3.2 条件分布 267
11.4 学习 270
11.4.1 最大似然估计 271
11.4.2 对比散度 274
11.5 应用:个性化推荐 276
11.5.1 个性化推荐概述 276
11.5.2 个性化推荐架构与算法 279
11.5.3 RBM与协同过滤 285
12 递归神经网络 291
12.1 Elman递归神经网络 292
12.2 时间反向传播 295
12.3 长短时记忆网络 299
12.4 结构递归神经网络 302
12.5 应用:语言模型 308
12.5.1 N元统计模型 308
12.5.2 基于LSTM 构建语言模型 312
13 卷积神经网络 318
13.1 卷积运算 319
13.2 网络结构 320
13.3 卷积层 324
13.4 池化层 329
13.5 应用:文本分类 333

读者评论

  • 第155页的公式6.41中,优化目标是min,而不是max,文中已经说过了。

    xiaopengfei发表于 2018/12/5 21:02:23

  • 这里 v, x 都是 shape = (n,1) 的向量 应该是

    celestin发表于 2017/6/10 20:11:16
  • 佛冈县第一中学 高三一班 黄安埠,你好,请加微信walter_walter,同学兼同行与你相见

    Walter发表于 2017/6/2 0:51:34

下载资源

相关博文

  • 机器学习:数据驱动的科学

    机器学习:数据驱动的科学

    管理员账号 2017-05-27

    小编说:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。 机器学习,也被称为统计机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测...

    管理员账号 2017-05-27
    1727 0 0 0
  • #小编推书#快速炼成AI工程师!

    Jessica瑾妞 2017-06-20

    《深入浅出深度学习:原理剖析与Python实践》最大的特色在于取舍明确,一切无助于迅速理解深度学习精髓的内容全被摒弃了,并着重阐述了技术上的重点和难点;表达上深入浅出:即便是从未接触过AI知识的人,也能从作者简明清晰的表述中,一窥深度学...

    Jessica瑾妞 2017-06-20
    428 0 0 0
  • 讲书3分钟丨《深入浅出深度学习:原理剖析与Python实践》-讲书人 黄安埠

    讲书3分钟丨《深入浅出深度学习:原理剖析与Python实践》-讲书人 黄安埠

    王一 2017-08-02

    只需3分钟就能快速了解一本书! 由作(译)者发声讲书,直指新书的特点与主旨。 只需利用碎片化时间,省时省力选到适合自己的好书! 音频地址 http://www.ximalaya.com/78614528/sound/4585...

    王一 2017-08-02
    1260 0 0 0

推荐用户

相关图书

亿级流量系统架构设计与实战

李琛轩 (作者)

本书涵盖了亿级用户应用后台通用的技术和系统架构设计思路,在内容结构上分为三大篇:架构知识篇(第1~3章),作为全书的基础知识篇,首先介绍后台的关键组件构成以及机...

 

算法笔记(第2版)

刁瑞 谢妍 (作者)

ChatGPT掀起了现象级的风暴,赶超ChatGPT潮流,算法突破是关键。 本书介绍了若干常见算法,涉及排序、哈希、动态规划与近似算法、高斯消去法、图论与线性...

 

看漫画学Python:有趣、有料、好玩、好用(全彩修订版)

关东升 著 赵大羽 绘 (作者)

ython是一门既简单又强大的编程语言,被广泛应用于数据分析、大数据、网络爬虫、自动化运维、科学计算和人工智能等领域。Python也越来越重要,成为国家计算机等...

 

Linux从入门到精通

张启玉 (作者)

本书以CentOS 7.8为演示系统,以阿里云为演示服务器,从Linux常用命令入手,从一毕业就要入职公司的上手要求出发,重实战、轻原理,目的就是要带领读者从一...

 

看漫画学Python 2:有趣、有料、好玩、好用(全彩进阶版)

关东升 ,赵大羽 (作者)

本书是《看漫画学Python》的进阶版本,继续秉承有趣、有料、好玩、好用的理念,并继续采用《看漫画学Python》一书中3个不同的漫画人物角色,通过这3个角色之...

 

趣玩Python:自动化办公真简单(双色+视频版)

本书以数据收集→数据清洗→数据分析→数据可视化→根据数据可视化结果(即图表)做决策为脉络,介绍Python在实际工作场景中的应用,侧重于用Python解决工作中...