强化学习实战：强化学习在阿里的技术演进和业务创新-图书

推荐1
收藏3
浏览2.1K

强化学习实战：强化学习在阿里的技术演进和业务创新

笪庆 , 曾安祥 (作者)　宋亚东 (责任编辑)

书　　号：978-7-121-33898-4
出版日期：2018-10-01
页　　数：226
开　　本：16(170*240)
出版状态：上市销售
维护人：宋亚东

近年来，随着与深度神经网络的结合，强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。与学术界关注的方向不同，在阿里巴巴，我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段，缺少有效的探索能力，系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法，在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得，覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线，是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节，其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

首次由工业界系统地披露在互联网级别的应用上使用强化学习的技术细节。

序
第1 章强化学习基础 ..............................................................................1
1.1 引言 ................................................................................................. 2
1.2 起源和发展 ..................................................................................... 3
1.3 问题建模 ......................................................................................... 5
1.4 常见强化学习算法 ......................................................................... 8
1.4.1 基于值函数的方法 .............................................................. 9
1.4.2 基于直接策略搜索的方法 ................................................ 12
1.5 总结 ............................................................................................... 14

第2 章基于强化学习的实时搜索排序策略调控 ....................................15
2.1 研究背景 ....................................................................................... 16
2.2 问题建模 ....................................................................................... 17
2.2.1 状态定义 ............................................................................ 17
2.2.2 奖赏函数设计 .................................................................... 18
2.3 算法设计 ....................................................................................... 19
2.3.1 策略函数 ............................................................................ 19
2.3.2 策略梯度 ............................................................................ 20
2.3.3 值函数的学习 .................................................................... 21
2.4 奖赏塑形 ....................................................................................... 22
2.5 实验效果 ....................................................................................... 25
2.6 DDPG 与梯度融合 ....................................................................... 27
2.7 总结与展望 ................................................................................... 28

第3 章延迟奖赏在搜索排序场景中的作用分析 ....................................30
3.1 研究背景 ....................................................................................... 31
3.2 搜索交互建模 ............................................................................... 31
3.3 数据统计分析 ............................................................................... 33
3.4 搜索排序问题形式化 ................................................................... 36
3.4.1 搜索排序问题建模 ............................................................ 36
3.4.2 搜索会话马尔可夫决策过程 ............................................ 38
3.4.3 奖赏函数 ............................................................................ 39
3.5 理论分析 ....................................................................................... 40
3.5.1 马尔可夫性质 .................................................................... 40
3.5.2 折扣率 ................................................................................ 41
3.6 算法设计 ....................................................................................... 44
3.7 实验与分析 ................................................................................... 48
3.7.1 模拟实验 ............................................................................ 48
3.7.2 搜索排序应用 .................................................................... 51

第4 章基于多智能体强化学习的多场景联合优化 .................................54
4.1 研究背景 ....................................................................................... 55
4.2 问题建模 ....................................................................................... 57
4.2.1 相关背景简介 .................................................................... 57
4.2.2 建模方法 ............................................................................ 58
4.3 算法应用 ....................................................................................... 65
4.3.1 搜索与电商平台 ................................................................ 65
4.3.2 多排序场景协同优化 ........................................................ 66
4.4 实验与分析 ................................................................................... 69
4.4.1 实验设置 ............................................................................ 69
4.4.2 对比基准 ............................................................................ 70
4.4.3 实验结果 ............................................................................ 70
4.4.4 在线示例 ............................................................................ 73
4.5 总结与展望 ................................................................................... 75

第5 章虚拟淘宝 ...................................................................................76
5.1 研究背景 ....................................................................................... 77
5.2 问题描述 ....................................................................................... 79
5.3 虚拟化淘宝 ................................................................................... 80
5.3.1 用户生成策略 .................................................................... 81
5.3.2 用户模仿策略 .................................................................... 83
5.4 实验与分析 ................................................................................... 85
5.4.1 实验设置 ............................................................................ 85
5.4.2 虚拟淘宝与真实淘宝对比 ................................................ 85
5.4.3 虚拟淘宝中的强化学习 .................................................... 87
5.5 总结与展望 ................................................................................... 90

第6 章组合优化视角下基于强化学习的精准定向广告OCPC 业务优化92
6.1 研究背景 ....................................................................................... 93
6.2 问题建模 ....................................................................................... 94
6.2.1 奖赏设计 ............................................................................ 94
6.2.2 动作定义 ............................................................................ 94
6.2.3 状态定义 ............................................................................ 95
6.3 模型选择 ..................................................................................... 100
6.4 探索学习 ..................................................................................... 102
6.5 业务实战 ..................................................................................... 103
6.5.1 系统设计 .......................................................................... 103
6.5.2 奖赏设计 .......................................................................... 105
6.5.3 实验效果 .......................................................................... 106
6.6 总结与展望 ................................................................................. 106

第7 章策略优化方法在搜索广告排序和竞价机制中的应用 ............... 108
7.1 研究背景 ..................................................................................... 109
7.2 数学模型和优化方法 ................................................................. 110
7.3 排序公式设计 ............................................................................. 112
7.4 系统简介 ..................................................................................... 113
7.4.1 离线仿真模块 .................................................................. 114
7.4.2 离线训练初始化 .............................................................. 114
7.5 在线策略优化 ............................................................................. 117
7.6 实验与分析 ................................................................................. 118
7.7 总结与展望 ................................................................................. 120

第8 章 TaskBot——阿里小蜜的任务型问答技术 ............................... 121
8.1 研究背景 ..................................................................................... 122
8.2 模型设计 ..................................................................................... 123
8.2.1 意图网络 .......................................................................... 123
8.2.2 信念跟踪 .......................................................................... 124
8.2.3 策略网络 .......................................................................... 124
8.3 业务应用 ..................................................................................... 126
8.4 总结与展望 ................................................................................. 127

第9 章 DRL 导购——阿里小蜜的多轮标签推荐技术 ......................... 128
9.1 研究背景 ..................................................................................... 129
9.2 算法框架 ..................................................................................... 130
9.3 深度强化学习模型 ..................................................................... 133
9.3.1 强化学习模块 .................................................................. 133
9.3.2 模型融合 .......................................................................... 134
9.4 业务应用 ..................................................................................... 135
9.5 总结与展望 ................................................................................. 136

第10 章 Robust DQN 在淘宝锦囊推荐系统中的应用 ........................ 137
10.1 研究背景 ................................................................................... 138
10.2 Robust DQN 算法 ..................................................................... 140
10.2.1 分层采样方法 ................................................................ 140
10.2.2 基于分层采样的经验池 ................................................ 141
10.2.3 近似遗憾奖赏 ................................................................ 142
10.2.4 Robust DQN 算法 .......................................................... 143
10.3 Robust DQN 算法在淘宝锦囊上的应用 ................................. 144
10.3.1 系统架构 ........................................................................ 144
10.3.2 问题建模 ........................................................................ 145
10.4 实验与分析 ............................................................................... 147
10.4.1 实验设置 ........................................................................ 148
10.4.2 实验结果 ........................................................................ 148
10.5 总结与展望 ............................................................................... 152

第11 章基于上下文因子选择的商业搜索引擎性能优化 ..................... 153
11.1 研究背景 ................................................................................... 154
11.2 排序因子和排序函数 ............................................................... 156
11.3 相关工作 ................................................................................... 157
11.4 排序中基于上下文的因子选择 ............................................... 158
11.5 RankCFS：一种强化学习方法 ............................................... 162
11.5.1 CFS 问题的 MDP 建模 ................................................. 162
11.5.2 状态与奖赏的设计 ........................................................ 163
11.5.3 策略的学习 .................................................................... 165
11.6 实验与分析 ............................................................................... 166
11.6.1 离线对比 ........................................................................ 167
11.6.2 在线运行环境的评价 .................................................... 170
11.6.3 双11 评价 ...................................................................... 171
11.7 总结与展望 ............................................................................... 172

第12 章基于深度强化学习求解一类新型三维装箱问题 .................... 173
12.1 研究背景 ................................................................................... 174
12.2 问题建模 ................................................................................... 175
12.3 深度强化学习方法 ................................................................... 177
12.3.1 网络结构 ........................................................................ 178
12.3.2 基于策略的强化学习方法 ............................................ 179
12.3.3 基准值的更新 ................................................................ 180
12.3.4 随机采样与集束搜索 .................................................... 180
12.4 实验与分析 ............................................................................... 181
12.5 小结 ........................................................................................... 182

第13 章基于强化学习的分层流量调控 .............................................. 183
13.1 研究背景 ................................................................................... 184
13.2 基于动态动作区间的DDPG 算法 .......................................... 186
13.3 实验效果 ................................................................................... 189
13.4 总结与展望 ............................................................................... 189

第14 章风险商品流量调控 ................................................................ 190
14.1 研究背景 ................................................................................... 191
14.2 基于强化学习的问题建模 ....................................................... 192
14.2.1 状态空间的定义 ............................................................ 192
14.2.2 动作空间的定义 ............................................................ 193
14.2.3 奖赏函数的定义 ............................................................ 193
14.2.4 模型选择 ........................................................................ 194
14.2.5 奖赏函数归一化 ............................................................ 196
14.3 流量调控系统架构 ................................................................... 196
14.4 实验效果 ................................................................................... 197
14.5 总结与展望 ............................................................................... 197
参考文献 ............................................................................................... 199