联邦学习-图书 - 博文视点

推荐0
收藏8
浏览4.3K

联邦学习

杨强，刘洋，程勇，康焱，陈天健，于涵 (作者)　杨强 (译者) 宋亚东 (责任编辑)

书　　号：978-7-121-38522-3
出版日期：2020-04-01
页　　数：208
开　　本：16(170*240)
出版状态：上市销售
原书名： Federated Learning
原书号：9781681736976
维护人：宋亚东

电子书￥62.30

购买电子书

纸质版￥89.00

如何在保证本地训练数据不公开的前提下，实现多个数据拥有者协同训练一个共享的机器学习模型？传统的机器学习方法需要将所有的数据集中到一个地方（例如，数据中心），然后进行机器学习模型的训练。但这种基于集中数据的做法无疑会严重侵害用户隐私和数据安全。如今，世界上越来越多的人开始强烈要求科技公司必须根据用户隐私法律法规妥善地处理用户的数据，欧盟的《通用数据保护条例》是一个很好的例子。在本书中，我们将描述联邦学习（亦称联邦机器学习）如何将分布式机器学习、密码学、基于金融规则的激励机制和博弈论结合起来，以解决分散数据的使用问题。我们会介绍不同种类的面向隐私保护的机器学习解决方案以及技术背景，并描述一些典型的实际问题解决案例。我们还会进一步论述联邦学习将成为下一代机器学习的基础，可以满足技术和社会需求并促进面向安全的人工智能的开发和应用。
本书可供计算机科学、人工智能和机器学习专业的学生，以及大数据和人工智能应用程序的开发人员阅读，也可供高等院校的教员、研究机构的研究人员、法律法规制定者和政府监管部门参考。

面向数据安全和隐私保护机器学习学术成果和应用案例
数据孤岛和数据保护难题破解之法

杨强
杨强教授是微众银行的首席人工智能官（CAIO）和香港科技大学（HKUST）计算机科学与工程系讲席教授。他是香港科技大学计算机科学与工程系的前任系主任，并曾担任大数据研究院的创始主任（2015-2018 年）。他的研究兴趣包括人工智能、机器学习和数据挖掘，特别是迁移学习、自动规划、联邦学习和基于案例的推理。他是多个国际协会的会士（Fellow），包括ACM、AAAI、IEEE、IAPR 和AAAS。他于1982 年获得北京大学天体物理学学士学位，分别于1987年和1989 年获得马里兰大学帕克分校计算机科学系硕士学位和博士学位。他曾在在滑铁卢大学（1989-1995 年）和西蒙弗雷泽大学（1995-2001 年）担任教授。他是ACM TIST 和IEEE TBD 的创始主编。他是国际人工智能联合会议（IJCAI）的理事长（2017-2019 年）和人工智能发展协会（AAAI）的执行委员会成员（2016-2020 年）。杨强教授曾获多个奖项，包括2004/2005 ACM KDDCUP 冠军、ACM SIGKDD 卓越服务奖（2017）、AAAI 创新人工智能应用奖（2018, 2020）和吴文俊人工智能杰出贡献奖（2019）。他是华为诺亚方舟实验室的创始主任（2012-2014 年）和第四范式（AI 平台公司）的共同创始人。他是Intelligent Planning （Springer）、Crafting Your Research Future (Morgan & Claypool)、Transfer Learning （Cambridge University Press）与Constraint-based Design Recovery for Software Engineering （Springer）等著作的作者。

刘洋
刘洋是微众银行AI 项目组的高级研究员。她的研究兴趣包括机器学习、联邦学习、迁移学习、多智能体系统、统计力学，以及这些技术的产业应用。她于2012 年获得普林斯顿大学博士学位，2007 年获得清华大学学士学位。她拥有多项国际发明专利，研究成果曾发表于Nature、IJCAI 和ACM TIST 等科研刊物和会议上。她曾获AAAI 人工智能创新应用奖、IJCAI 创新应用奖等多个奖项，并担任IJCAI 高级程序委员会委员，NeurIPS 等多个人工智能会议研讨会联合主席，以及IEEE Intelligent Systems 期刊客座编委等。

程勇
程勇是微众银行AI 项目组的高级研究员。他曾任华为技术有限公司（深圳）高级工程师和德国贝尔实验室高级研究员，也曾在华为-香港科技大学创新实验室担任研究员。他的研究兴趣和专长主要包括联邦学习、深度学习、计算机视觉和OCR、数学优化理论和算法、分布式和网络计算以及混合整数规划。他发表期刊和会议论文20 余篇。他于2006 年、2010 年、2013 年分别在浙江大学、香港科技大学、德国达姆施塔特工业大学获工学学士学位（一等荣誉）、硕士学位和博士学位。他于2014 年获达姆施塔特工业大学最佳博士论文奖，于2006 年获浙江大学最佳学士论文奖。他在ICASSP’15 会议上做了关于“混合整数规划”的教程。他是IJCAI’19 和NIPS’19 等国际会议的程序委员会委员。

康焱
康焱是微众银行AI 项目组的高级研究员。他的工作重点是面向隐私保护的机器学习和联邦迁移学习技术的研究和实现。他在马里兰大学巴尔的摩分校获计算机硕士和博士学位。他的博士论文研究的是以机器学习和语义网络进行异构数据集成，并获得了博士论文奖学金。在就读研究生期间，他参与了与美国国家标准与技术研究院（NIST）和美国国家科学基金会（NSF）合作的多个项目，设计和开发语义网络集成系统。他在商业软件项目方面也有着丰富的经验。他曾在美国
Stardog Union 公司和美国塞纳公司工作了四年多的时间，从事系统设计和实现方面的工作。

陈天健
陈天健是微众银行AI 项目组的副总经理。他现在负责构建基于联邦学习技术的银行智能生态系统。在加入微众银行之前，他是百度金融的首席架构师，同时也是百度的首席架构师。他拥有超过12 年的大规模分布式系统设计经验，并在Web 搜索引擎、对等网络存储、基因组学、推荐系统、数字银行和机器学习等多个应用领域中实现了技术创新。他现居于中国深圳，与其他工作伙伴一起建设和推广联邦AI 生态系统和相关的开源项目FATE。

于涵
于涵现任职新加坡南洋理工大学（NTU）计算机科学与工程学院助理教授、微众银行特聘顾问。在2015—2018 年期间，他在南洋理工大学担任李光耀博士后研究员（LKY PDF）。在加入南洋理工大学之前，他曾在新加坡惠普公司担任嵌入式软件工程师。他于2014 年获南洋理工大学计算机科学博士学位。他的研究重点是在线凸优化、人工智能伦理、联邦学习及其在众包等复杂协作系统中的应用。他在国际学术会议和期刊上发表研究论文120 余篇，获得了多项科研奖项。

前言
本书讲述在数据间彼此孤立、同时被不同组织所拥有且并不能被轻易地聚合在一起的环境下，联合构建机器学习模型的方法。我们经常可以听到，当今是大数据（Big Data）时代，而大数据正是人工智能（Artificial Intelligence，AI）应用蓬勃发展的“燃料”。事实却是，我们面对的数据常常既是小规模，又是碎片化的。例如，我们不能随意收集由移动终端设备产生的数据，这些数据都以碎片化的形式分散存在。像医院这样的机构，由于行业的特殊性，对用户数据的掌握量往往是有限的。然而，由于用户隐私和数据安全方面的需求，使得在不同机构间以简单的方式将所有数据聚合到一处并进行处理变得越来越不可行。在这样的环境中，联邦机器学习（Federated Machine Learning），或者简称为联邦学习（Federated Learning），作为一种行之有效的解决方案引起了人们的广泛关注。联邦学习既能帮助多个参与方搭建共享的高性能模型，又符合用户隐私和数据保密性的要求。
除了保护用户隐私和数据安全，联邦学习的另一发展动机是为了最大化地利用云系统下终端设备的计算能力。如果只在设备和服务器之间传输计算结果而不是原始数据，那么通信将会变得极为高效。人造卫星能够完成绝大部分的信息收集计算，并只需使用最低限度的信道与地面计算机通信。联邦学习通过交换中间计算结果即可在多台设备和计算服务器之间进行同步。
我们可以打个比方来通俗地解释联邦学习，把机器学习模型比作羊，把数据比作羊吃的草。在传统方法中，要建立机器学习模型，需要到各个草场的供应商处收购草。这就像一家人工智能公司需要到处收集数据一样，会面对很多的挑战，例如用户隐私、各个组织的利益和法律法规的约束等。联邦学习则换了一种思路，我们可以牵着羊，到各个草场去吃草，这样羊就可以吃到每个地方的草，羊可以成长，而草不出本地，就像联邦学习系统里的数据不出本地一样。羊吃了各家的草，可以逐渐长大，就像联邦模型在各个地方的数据集上都获得知识，变得越来越好，最后联邦模型可以供大家一起使用一样。这也是本书的封面所展示的意义。
如今，现代社会需要人们更负责任地使用人工智能，而用户隐私和数据完整性是人工智能系统的重要特征。在这一方向，从安全地更新移动电话上的输入法预测模型，到与多家医院一同改善医疗图像识别模型的性能，联邦学习已经产生了显著的积极影响。在计算机科学领域，有许多已有的研究成果为联邦学习技术奠定了基础。自从谷歌发布了一个名为Gboard 的应用程序后，联邦学习技术在2018 年左右开始迅速崛起。
谷歌的Gboard 系统是一个企业对消费者（Business-to-Consumer，B2C）应用的例子。它也能够用于支持边缘计算，云系统的终端（边缘）设备可以处理许多计算任务，从而减少了通过原始数据与中央服务器通信的需要。另一个维度是企业对企业（Business-to-Business，B2B）应用。在此类应用中，多个组织联合起来搭建一个共享的机器学习模型。模型是在确保没有本地数据离开任何站点的同时构建的，而模型性能可以根据业务需求进行一定程度的定制。在本书中，我们涵盖了B2C 模型和B2B 模型。
为了推进联邦学习技术，需要多个学科领域的合作，包括机器学习算法、分布式机器学习、密码学与安全、隐私保护数据挖掘、博弈论与经济学原理、激励机制设计、法律与监管要求等。要同时精通如此多的学科，对一位研究者或工程师来说是一个极其艰巨的任务。目前，研究联邦学习领域的资源分散于许多研究论文和博客上，因此，我们有必要在一本书中进行全面的介绍。
本书的内容是关于联邦学习的介绍，可以作为读者入门和探究联邦学习所需阅读的第一本书。本书是为计算机科学、人工智能和机器学习专业的学生，以及大数据和人工智能应用程序的开发人员编写的。本科高年级学生或者研究生、大学的教员和研究机构的研究人员都能够发现这本书的有用之处。在课堂上，本书可以作为研究生研讨课程的教科书，也可以作为研究联邦学习的参考文献。法律法规制定者和政府监管部门也可以把这本书作为一本关于大数据和人工智能法律事务的参考书。
本书的想法来自我们在微众银行开发的一个名为联邦智能使能器（Federated AI Technology Enabler，FATE）的联邦学习平台，是第一个工业级联邦学习开源框架。FATE 平台现已是Linux 基金会的一部分。微众银行是一家服务于中国数亿用户的数字银行，拥有来自不同背景的商业合作伙伴，包括银行、保险公司、互联网公司、零售公司和供应链公司等。我们亲身体会到，由于数据不能轻易地共享和传输，导致合作构建由机器学习所支撑的新业务的需求正变得愈加强烈。
谷歌将联邦学习大规模地应用在其面向消费者的移动服务中。我们进一步扩大了联邦学习的适用范围，使多家企业结为伙伴关系。基于联邦学习的横向、纵向和迁移学习分类首次在我们发表于ACM TIST (ACM Transactions on Intelligent Systems and Technology) 的研究论文中提出，也于2019 年在夏威夷由人工智能发展协会组织举办的AAAI（Association for the Advancement of Artificial Intelligence）会议上提出。随后，在第14 届中国计算机联盟科技前沿大会等会议上，参会者们提供了许多关于联邦学习的教程。在本书的编写过程中，我们的第一个开源联邦学习系统FATE 诞生了。此外，联邦学习的第一个 IEEE 国际标准正在制定中。各种教程和相关的研究论文是本书的基础所在。
本书的结构安排如下。第1 章介绍当前人工智能面临的挑战以及将联邦学习作为可行的解决方案。第2 章提供面向隐私保护的机器学习的背景知识，包括常用的隐私保护技术和数据安全技术。第3 章是分布式机器学习概述，包括面向扩展性的分布式机器学习和面向隐私保护的分布式机器学习，并强调了联邦学习和分布式机器学习的区别。第4 章、第5 章和第6 章分别详细地介绍了横向联邦学习、纵向联邦学习和联邦迁移学习。第7 章探讨联邦学习激励机制的设计，以便更好地激励联邦学习的参与方。第8 章介绍联邦学习在计算机视觉、自然语言处理及推荐系统领域的研究和应用。第9 章介绍联邦强化学习。第10 章讨论联邦学习在各个领域的应用前景。第11 章总结此书，并展望联邦学习的未来发展。最后，附录A 中提供了当前最新的欧盟、美国和中国的数据保护法律和法规概况。

为完成本书的撰写，一群非常敬业的学者和工程师付出了巨大的努力。除了本书的作者，也有许多博士研究生、研究人员和研究伙伴为不同章节做出了贡献。我们衷心地感谢以下为本书的写作和编校做出贡献的人士。
• 周雨豪协助完成了本书从英文到中文翻译的初稿。
• 高大山协助撰写了第2 章和第3 章。
• 吴学阳协助撰写了第3 章和第5 章。
• 梁新乐协助撰写了第3 章和第9 章。
• 黄云峰协助撰写了第5 章和第8 章。
• 万晟协助撰写了第6 章和第8 章。
• 魏锡光协助撰写了第9 章。
• 邢鹏威协助撰写了第8 章和第10 章。
最后，我们要感谢我们的家人对我们的理解与支持！

杨强，刘洋，程勇，康焱，陈天健，于涵
2020 年4 月，中国深圳

序言Ⅲ
前言Ⅳ
作者简介Ⅷ

第1 章引言/1
1.1 人工智能面临的挑战/2
1.2 联邦学习概述/4
1.2.1 联邦学习的定义/5
1.2.2 联邦学习的分类/8
1.3 联邦学习的发展/11
1.3.1 联邦学习的研究/11
1.3.2 开源平台/13
1.3.3 联邦学习标准化进展/14
1.3.4 联邦人工智能生态系统/15

第2 章隐私、安全及机器学习/17
2.1 面向隐私保护的机器学习/18
2.2 面向隐私保护的机器学习与安全机器学习/18
2.3 威胁与安全模型/19
2.3.1 隐私威胁模型/19
2.3.2 攻击者和安全模型/21
2.4 隐私保护技术/22
2.4.1 安全多方计算/22
2.4.2 同态加密/27
2.4.3 差分隐私/30

第3 章分布式机器学习/35
3.1 分布式机器学习介绍/36
3.1.1 分布式机器学习的定义/36
3.1.2 分布式机器学习平台/37
3.2 面向扩展性的DML /39
3.2.1 大规模机器学习/39
3.2.2 面向扩展性的DML 方法/40
3.3 面向隐私保护的DML /43
3.3.1 隐私保护决策树/43
3.3.2 隐私保护方法/45
3.3.3 面向隐私保护的DML 方案/45
3.4 面向隐私保护的梯度下降方法/48
3.4.1 朴素联邦学习/49
3.4.2 隐私保护方法/49
3.5 挑战与展望/51

第4 章横向联邦学习/53
4.1 横向联邦学习的定义/54
4.2 横向联邦学习架构/55
4.2.1 客户-服务器架构/55
4.2.2 对等网络架构/58
4.2.3 全局模型评估/59
4.3 联邦平均算法介绍/60
4.3.1 联邦优化/60
4.3.2 联邦平均算法/63
4.3.3 安全的联邦平均算法/65
4.4 联邦平均算法的改进/68
4.4.1 通信效率提升/68
4.4.2 参与方选择/69
4.5 相关工作/69
4.6 挑战与展望/71

第5 章纵向联邦学习/73
5.1 纵向联邦学习的定义/74
5.2 纵向联邦学习的架构/75
5.3 纵向联邦学习算法/77
5.3.1 安全联邦线性回归/77
5.3.2 安全联邦提升树/80
5.4 挑战与展望/85

第6 章联邦迁移学习/87
6.1 异构联邦学习/88
6.2 联邦迁移学习的分类与定义/88
6.3 联邦迁移学习框架/90
6.3.1 加法同态加密/93
6.3.2 联邦迁移学习的训练过程/94
6.3.3 联邦迁移学习的预测过程/95
6.3.4 安全性分析/95
6.3.5 基于秘密共享的联邦迁移学习/96
6.4 挑战与展望/97

第7 章联邦学习激励机制/99
7.1 贡献的收益/100
7.1.1 收益分享博弈/100
7.1.2 反向拍卖/102
7.2 注重公平的收益分享框架/103
7.2.1 建模贡献/103
7.2.2 建模代价/104
7.2.3 建模期望损失/105
7.2.4 建模时间期望损失/105
7.2.5 策略协调/106
7.2.6 计算收益评估比重/108
7.3 挑战与展望/109

第8 章联邦学习与计算机视觉、自然语言处理及推荐系统/111
8.1 联邦学习与计算机视觉/112
8.1.1 联邦计算机视觉/112
8.1.2 业内研究进展/114
8.1.3 挑战与展望/115
8.2 联邦学习与自然语言处理/116
8.2.1 联邦自然语言处理/116
8.2.2 业界研究进展/118
8.2.3 挑战与展望/118
8.3 联邦学习与推荐系统/119
8.3.1 推荐模型/120
8.3.2 联邦推荐系统/121
8.3.3 业界研究进展/123
8.3.4 挑战与展望/123

第9 章联邦强化学习/125
9.1 强化学习介绍/126
9.1.1 策略/127
9.1.2 奖励/127
9.1.3 价值函数/127
9.1.4 环境模型/127
9.1.5 强化学习应用举例/127
9.2 强化学习算法/128
9.3 分布式强化学习/130
9.3.1 异步分布式强化学习/130
9.3.2 同步分布式强化学习/131
9.4 联邦强化学习/131
9.4.1 联邦强化学习背景/131
9.4.2 横向联邦强化学习/132
9.4.3 纵向联邦强化学习/134
9.5 挑战与展望/136

第10 章应用前景/139
10.1 金融/140
10.2 医疗/141
10.3 教育/142
10.4 城市计算和智慧城市/144
10.5 边缘计算和物联网/146
10.6 区块链/147
10.7 第五代移动网路/148

第11 章总结与展望/149

附录A 数据保护法律和法规/151
A.1 欧盟的数据保护法规/152
A.1.1 GDPR 中的术语/153
A.1.2 GDPR 重点条款/154
A.1.3 GDPR 的影响/156
A.2 美国的数据保护法规/157
A.3 中国的数据保护法规/158

参考文献/161

全部展开

本书勘误

页码：21 • 行数：3 • 印次： 1 • 修订印次： 4

改行末尾“作为返回结果。并且返回聚合”中的句号应该是逗号

RosemaryLeung 提交于 2021/1/12 11:34:49

宋亚东确认于 2021/1/15 9:30:21
页码：24 • 行数：12 • 印次： 1 • 修订印次： 2

“解密” 应为 “加密”

tsuki 提交于 2020/5/20 10:06:43

宋亚东确认于 2020/5/20 11:19:53
页码：46 • 行数：8 • 印次： 1 • 修订印次： 2

面各应为：面向

宋亚东提交于 2020/6/8 12:12:16

宋亚东确认于 2020/6/8 12:12:46
页码：107 • 行数：18 • 印次： 1 • 修订印次： 2

应当被“最大化”而不是“最小化”

Xinyan Chen 提交于 2020/6/23 11:15:27

宋亚东确认于 2020/6/29 9:31:47
页码：130 • 行数：表9-1 • 印次： 1 • 修订印次： 2

最后两列的标题：离策略和在策略写反了

Liyiying 提交于 2020/5/17 14:34:12

宋亚东确认于 2020/5/18 9:12:11