在大数据和人工智能时代,如何在享受新技术带来的便利性的同时保护自己的隐私,是一个重要的问题。本书系统讲解了隐私计算的基础技术和实践案例,全书共有11 章,按层次划分为三部分。第一部分全面系统地阐述隐私加密计算技术,包括秘密共享、同态加密、不经意传输和混淆电路。第二部分介绍隐私保护计算技术,包括差分隐私、可信执行环境和联邦学习。第三部分介绍基于隐私计算技术构建的隐私计算平台和实践案例,隐私计算平台主要包括面向联邦学习的FATE 平台和加密数据库的CryptDB 系统等五个平台,以及隐私计算平台的效率问题和常见的加速策略;实践案例部分主要介绍包括金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的应用案例。此外,本书还展望了隐私计算未来的研究和落地方向。在附录中介绍了当前最新的中国数据保护法律概况。
内容系统完整全面。呈现相对完整的隐私计算知识体系,系统阐述隐私计算关键技术,包括4大发展阶段,5大应用平台,9大落地实践案例。
理论应用价值兼备。系统讲解隐私计算的基础理论和关键技术,包括秘密共享、同态加密、不经意传输、混淆电路、差分隐私、可信执行环境和联邦学习。并介绍了基于隐私计算技术构建的五个前沿隐私计算平台,以及平台的效率问题和常见加速策略。
产业实践案例丰富。本书结合金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的产业应用案例,详细分析了相关技术的适用范围和落地方法,方便读者理解技术的优点和局限性,对实践者具有很高的参考价值。
全新法律法规解读。本书邀请观韬中茂律师事务所的资深律师,对最新的中国数据保护法律进行了详细解读,方便读者了解中国新的数据保护制度。
顶级专家学者力荐。中国科学院院士梅宏倾情作序,中国工程院院士高文,中国工程院外籍院士、加拿大皇家科学院院士罗智泉,创新工场董事长兼CEO李开复联袂推荐。
全彩印刷设计精良。本书采用全彩印刷,精致排版设计,提供上乘阅读体验。
陈 凯
香港科技大学计算机科学与工程系副教授、博导、研究生部主任,智能网络与系统实验室(iSING Lab)主任,香港科大-微信人工智能技术联合实验室(WHAT Lab)主任,香港人工智能与机器人学会(HKSAIR)执行副理事长,香港主题研究计划(Theme-based Reseach Scheme)首席科学家。主要研究方向包括数据中心网络、云计算、大数据和人工智能底层系统和基础架构。担任ACM SIGCOMM、USENIX NSDI、IEEE INFOCOM、IEEE/ACM Transactions on Networking、Big Data、Cloud Computing等国际顶尖会议和期刊的程序委员会委员和编委,亚太网络研讨会(APNet)的发起人和执行委员会主席。陈凯本科和硕士毕业于中国科学技术大学,获得中国科学院院长奖,博士毕业于美国西北大学。
杨 强
加拿大工程院及加拿大皇家科学院两院院士,微众银行首席人工智能官,香港科技大学讲席教授,AAAI 2021大会主席,中国人工智能学会(CAAI)荣誉副理事长,香港人工智能与机器人学会(HKSAIR)理事长以及智能投研技术联盟(ITL)主席。他是AAAI/ACM/CAAI/IEEE/IAPR/AAAS Fellow,也是IEEE Transactions on Big Data和ACM Transactions on Intelligent Systems and Technology创始主编,以及多个国际人工智能和数据挖掘领域杂志编委。曾获2019年度“吴文俊人工智能科学技术奖”杰出贡献奖,2017年ACM SIGKDD杰出服务奖。杨强毕业于北京大学,于1989年在马里兰大学获得计算机博士学位,之后在加拿大滑铁卢大学和Simon Fraser大学任教,他的研究领域包括人工智能、数据挖掘和机器学习等。他曾任华为诺亚方舟实验室主任,第四范式公司联合创始人,香港科技大学计算机与工程系系主任以及国际人工智能联合会(IJCAI)理事会主席。领衔全球迁移学习和联邦学习研究及应用,最近的著作有《迁移学习》、《联邦学习》和《联邦学习实战》等。
前言
身处“数据时代”,如何有效挖掘数据中蕴藏的智能而不侵害数据本身的隐私和安全,是我们推动社会进步和生产力发展需要共同思考和实践的一个课题。隐私计算的本质就是在实现“数据可用不可见”这一目标的过程中产生的一系列理论和技术。
从二十世纪七八十年代诞生的基于隐藏部分信息来保护数据隐私的安全多方计算理论,到近年来围绕“数据不动模型动”理念发明的联邦学习技术,隐私计算的发展已经历40 余年。在这个进程中,产生了大量的理论、算法、协议和技术,例如秘密共享、混淆电路、不经意传输、差分隐私、同态加密和可信执行环境等,也融合了多个学科知识,包括密码学、统计学、人工智能和计算机体系结构等。同时,隐私保护技术近年来也被逐步应用到越来越多的任务(如数据分析、数据库、机器学习)和场景(如金融、医疗、政务)之中,对这些行业的发展起到了一定的积极推动作用。
然而,我们观察到,目前尚未有一本相对全面且系统地介绍隐私计算理论、技术和应用的图书。相关的研究成果和实践经验大多分散在学术论文、会议报告、技术博客和白皮书之中,还未构成一个相对完整的知识体系。这在一定程度上影响
了隐私计算的学科发展和应用普及。我们在与许多老师、同学及相关行业从业者的交流中也有所体会:
• 在一次由中国计算机学会举办的隐私保护机器学习学科前沿讲习班上,我们分享了一个题为《隐私计算理论和效率》的讲座。班上学员大多是来自国内各高校的老师和同学,他们对这个主题非常感兴趣。三个小时的课堂讨论很激烈,课后也有不少学员问了许多问题。从这些提问中我们可以观察到,尽管大家对隐私计算很有热情,但理解还处在相对初级、碎片化的阶段,对隐私计算涵盖的范围、分类相对模糊,对隐私计算各个具体技术的性质、性能、优缺点,以及在实际平台和应用中的使用情况也相对陌生。
• 在推进产学研落地的过程中,我们遇到不少对隐私计算既热情又陌生的群体或机构。香港科学园就有这样的一个例子,他们拥有十几家机构的数据,希望赋能园区内几百家科创企业,但又有泄露数据隐私的担忧。了解到联邦学习能够在保护数据隐私的情况下推进人工智能应用,他们就找到了我,问了许多问题,例如:联邦学习的原理是什么,为什么能保证数据不被泄露,若搭建一个联邦学习平台需要什么样的设备,能支持多少客户,需要多少预算,项目周期大概多久,等等。从聊天中可见,他们对隐私计算很好奇,但充满疑惑。
在国外,有一本叫A Pragmatic Introduction to Secure Multi-Party Computation的书,于今年夏天刚刚被翻译成《实用安全多方计算》引入国内,但该书的内容专注于安全多方计算理论,缺少对联邦学习技术和可信硬件计算技术的阐述和分析,所以还未能构成完整的隐私计算知识体系。此外,该书也没有包含近年来出现的前沿隐私计算平台、隐私保护落地实践案例等,对“产学研”落地的指导意义相对有限。
因此,为构建一个相对完整的隐私计算知识体系,并对其科研落地产生一定的指引,我们编写了这本书。从决定要写到成稿,只用了短短六个多月的时间。香港科技大学智能网络与系统实验室(iSING Lab)的很多同学都参与到了这个过程中,我们阅读整理了大量的研究文献和参考资料,其中也包括一些我们自己发表的相关学术论文,努力用较为通俗易懂的语言讲解隐私计算的基础知识和技术、隐私计算平台、隐私计算落地案例。最后,我们展望了隐私计算的未来,也特别邀请了观韬中茂律师事务所王渝伟和陈刚两位律师帮助解读当前最新的中国数据安全法规,希望对读者有所启发。
如上所述,我们希望通过这部《隐私计算》为学术界和产业界构建一个相对完整的隐私计算知识体系。同时,我们也深知,本书的内容可能并不能包含隐私计算的每个方面,或许与一部“隐私计算全书”还有一定的距离;尽管如此,我们仍希望在这条路上迈出坚实的第一步。
本书主要内容
本书内容大致分为层层递进的三个部分:
第一部分:隐私加密计算技术(第2~5 章)。该部分旨在用通俗的语言介绍各种与隐私加密计算和隐私保护计算相关的各种密码学技术,包括秘密共享、同态加密、不经意传输和混淆电路。这些密码学技术是实现隐私计算的基石。每个章节包含相应的技术基础知识和简单的应用举例。
第二部分:隐私保护计算技术(第6~8 章)。该部分旨在介绍除密码学技术之外的隐私保护计算技术,这部分技术脱离出隐私加密计算的密码学范畴,在更加广泛的技术和应用场景下研究计算过程中对数据隐私的保护、管理与度量的可能性,包括差分隐私、可信执行环境和联邦学习。
第三部分:隐私计算平台和实践案例(第9~10 章)。介绍基于以上隐私计算技术构建的隐私计算平台,主要包括面向联邦学习的FATE 平台和加密数据库的CryptDB 系统等五个平台。同时,也介绍了隐私计算平台的效率问题和常见的加速策略。在实践案例部分,主要介绍包括金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的应用案例。
此外,第11 章展望了隐私计算未来的研究和落地方向。最后,附录中提供了当前最新的中国数据保护法律概况。
致谢
为协助完成本书的撰写,一群非常优秀的博士研究生、学者和工程师付出了大量的时间和精力。在此,我们首先感谢以下参与各章节编写的同学:
• 第2 章:杨柳,柴迪。
• 第3 章:田晗,金逸伦。
• 第4 章、第5 章:任正行,金逸伦。
• 第6 章:金逸伦,田晗。
• 第7 章:张骏雪,任正行。
• 第8 章:金逸伦,任正行。
• 第9 章:程孝典,胡水海。
• 第10 章:柴迪,杨柳,任正行,田晗,郭昆,陈天健。
此外,在编写过程中我们参阅了大量的著作和相关文献,在此对这些著作和文献的作者一并表示感谢。由于水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
最后,我们要感谢家人对我们的理解与支持!
陈凯,杨强
2021 年12 月,中国香港