算法与数据中台:基于Google、Facebook与微博实践
  • 推荐0
  • 收藏0
  • 浏览166

算法与数据中台:基于Google、Facebook与微博实践

詹盈 (作者) 

  • 书  号:978-7-121-39288-7
  • 出版日期:2020-08-14
  • 页  数:328
  • 开  本:16(185*235)
  • 出版状态:上市销售
电子书 ¥62.30
购买电子书
纸质版 ¥89.00
本书作者依据在Google、Facebook、新浪微博及滴滴出行等中美一流互联网公司的实际工作经历,对算法技术、数据技术,以及围绕它们进行的技术中台建设实践进行了全面的探讨,并在此基础上对信息流推荐、计算广告及智能出行等核心互联网业务进行了案例剖析。
本书具有广阔的技术视野,内容颇具深度,既适合互联网行业的技术从业者阅读,也适合计算机相关专业的高年级本科生、研究生阅读。通过阅读本书,读者能加深对机器学习、深度学习、大数据、分布式系统及技术中台等相关领域的认知与理解,并从中获得一定的启发和可借鉴的经验。
智能数据中台横空出世 Facebook|Google|Uber|阿里|腾讯技术带头人领衔力荐
推荐语
数据中台在很多企业已经得到了较好的实践并产生了巨大的收益。随着机器学习,特别是深度学习的快速发展和工业化落地,通过对算法技术与大数据技术进行统一的规划和建设,我们能够将传统的数据中台升华为智能数据中台,并进一步赋能给前台业务来进行智能化改造。本书对于智能数据中台着墨甚多,内容非常全面,从大数据的线下(offline)处理,过渡到近线(near-line)半实时模型更新,再到在线(online)实时服务,对相关解决方案进行了全景式的解析。更为难得的是,作者还介绍了在中美一流企业的亲身经历和成功实践,这些内容具有高度的可借鉴性,强烈建议互联网行业的广大从业人员阅读。
SHAREit合伙人、COO 王超

强大的中台是互联网公司的核心竞争力。本书内容由浅入深,从基础架构到核心算法,从理论到实践,再结合作者多年在Google、Facebook和新浪微博的工作经验,是难得的技术指南。
Facebook信息流中台负责人 毛昀

在这个人工智能蓬勃发展的时代,一个可靠、可延展、易用的中台,对于大规模数据的处理、建模、预测及业务发展至关重要。本书深入浅出地介绍了算法和数据中台的核心基础,同时结合作者在国内外一线互联网公司的实际工作经验,系统地讲解了中台的搭建。从业者通读本书,既能够获取关于中台的基础知识,也能够得到有益的启发和有针对性的经验。
Uber Eats技术负责人 吕飞
本书有别于市场上众多的数据中台类图书,是一本关于算法与数据中台技术的“百科全书”,内容包括中台技术的基础设施、在线算法服务、机器学习平台、分布式数据库系统、大数据平台,还有具体的实践案例。本书包罗万象,讲解深入浅出,是算法与数据中台技术研发人员的参考指南。
Google DoubleClick视频广告技术中台负责人 朱祖韬

以大数据为核心的数据技术早已对各行各业的发展产生了巨大的推动作用。近年来,随着机器学习,特别是深度学习的蓬勃发展和工业化落地,我们已然从大数据时代进入了数据智能时代。本书对数据技术和算法技术,以及背后的中台建设和实践案例进行了深入探讨与剖析,是一本颇具指导价值和内容稀缺性的佳作。
网易前技术副总裁、Strava CTO 刘彦东

本书有别于目前市面上已有的数据中台或技术中台相关著作,作者将机器学习算法和数据技术作为一个有机整体进行了解读,并在剖析具体案例的基础上介绍了 Google、Facebook 和新浪微博等知名互联网公司的实践经验,这些内容是相当有洞见的。特此推荐给互联网行业的从业者及对中台技术感兴趣的读者。
北京大学计算机系研究员 许辰人

技术中台化已成为很多行业的潮流。本书系统介绍了算法与数据中台的技术架构和算法原理,展示了多家一线互联网公司的架构方案,为中台技术体系搭建提供了宝贵的参考。
好未来教育集团AI平台负责人、资深算法科学家 杨非

机器学习技术,以及支撑其发展的数据处理技术,早已在诸多领域发挥了不可替代的作用。正如本书中所述,通过技术沉淀及数据整合,通用的算法能力和数据能力可以被复用到诸多不同的业务场景当中并产生巨大的收益。本书翔实地介绍了中台建设的背景和意义,并对与算法和数据相关的中台建设实践进行了深入探讨,这些技术要点和实践经验颇具代表意义,相信读者能从中获得启发。
快手副总裁、短视频推荐负责人 连乔
人工智能应用及其背后的算法、技术,在人们生产生活的各个场景中变得愈发重要。小到智能手机里的人脸解锁,大到智慧医疗或者智慧工厂,都有它们的身影。本书充分结合国内外知名互联网企业的实践,围绕算法技术和数据技术进行了详尽探讨,为从业者提供了可借鉴的经验。
商汤科技副总裁 张少霆

中台概念在互联网公司中正日益普及。然而,构建实用化的数据中台和超大规模的机器学习中台并非易事,它对系统设计者及开发者的算法和工程能力要求很高。本书从算法和工程等多个维度翔实地介绍了如何设计实用化的大规模机器学习中台、数据中台,以及中外一线互联网公司的实践。作者在大规模机器学习系统构建方面具备非常丰富的实践经验,所以本书体现出算法与工程并重、理论与实践兼顾的特点,这是很难得的,在此诚挚向大家推荐此书。
新浪微博AI Lab机器学习团队负责人 张俊林

大部分互联网企业都会依存于数据,无论是从数据到洞见,指导业务的发展方向,还是从数据到算法,优化用户价值漏斗。为了积累和提升这些能力,很多发展到一定阶段的企业,都会选择把核心的数据和算法能力沉淀到中台。如何建立中台能力?本书凝聚了国内外互联网企业的优秀经验,为读者回答了这个问题并提供了宝贵的经验。
滴滴高级总监 郭飞

随着海量数据在各行各业的飞速积累,大数据和算法中台相关技术在很多行业应用中产生了很大影响。本书不仅系统介绍了与大数据和算法中台技术相关的基础知识与系统,难得的是,还详细描述了其在互联网行业不同场景下的实践,对于那些希望了解中台技术的相关专业在校学生和行业从业者,本书是非常难得的学习材料。
腾讯AI Lab机器学习中心总监 黄俊洲

本书每一章都可以独立成篇,各章之间从基础到应用循序渐进,内容既全面又相对独立。作者集合其多年在中美一流大公司的开发经验倾力打造,本书定将成为该领域中一本不可或缺的技术指南。
美国特拉华大学计算机与信息科学系助理教授 彭曦
数据智能正在从特权变为普惠,如何让业务智能化是每个公司都面临的挑战。本书系统化阐述了算法、算法平台、数据库和大数据平台,并且通过在业界领先的推荐广告等系统中的实践详细解释了中台的应用。相信这些典型系统会给读者带来启发,开启产品的智能之门。
阿里巴巴研究员 蒋晓伟

作者以其在全球知名互联网企业的亲身体验和深厚的技术底蕴,展现了理论与实践的完美结合。本书系统地刻画了一个个经典的实践案例,深入浅出地介绍了算法和数据中台技术在当今顶尖互联网科技企业中的应用与发展,是了解算法和数据中台技术及其应用的佳作。
太平人寿CIO、谷歌及贝尔实验室前科学家 熊明

算法和数据对于许多互联网公司来说不可或缺,它们是众多产品和业务进行智能化升级的重要支撑。本书翔实地阐述了算法和数据之间的紧密关系,并依据作者多年在世界一流互联网公司的工作经验,对中台建设方案和相关实践案例进行了深入探讨。这些内容具有高度的借鉴意义和启发性,相信读者在阅读之后能够从中获得新的感悟,并因地制宜地将相关技术和经验应用到实际的项目开发当中。
Facebook Ads分发技术负责人 潘科

推荐序
数据智能作为新基建中的核心领域,具备前所未有的变革能力,它正在对现有的生产生活方式、商业模式甚至经济结构产生着巨大的推动作用。算法技术与数据技术的深度结合是实现数据智能的基础。以机器学习为代表的人工智能,逐渐发展成为当今最为主流和最具影响力的算法技术。它不仅在推荐、搜索和广告等经典的互联网业务中完美地证明了自己的价值,而且在解决现实生产和生活中的实际问题上,也逐渐彰显出了不可替代的巨大能力。在机器学习被不断地实践和应用的过程中,数据技术特别是大数据领域的相关技术,也取得了长足进步,并成为机器学习算法赖以生存的土壤。数据智能领域的技术进步,和互联网本身的蓬勃发展是密不可分的,两者相互促进,相辅相成。技术的进步不仅可以为已有互联网产品的智能化升级和改造进行赋能,它也是许多新兴互联网业务得以开展的基石,而互联网的发展则为算法技术与数据技术的实践和进化提供了广阔的舞台。
新浪微博作为全球最大的中文社交媒体平台,不仅具有海量的用户规模和平台内容,而且具有社交性和媒体性这两大突出特点。面对不断增长的博文信息及愈加丰富的用户行为,新浪微博一直以来都致力于利用数据技术和算法技术来驱动业务发展和产品迭代。在多年的中台建设过程中,微博平台已经基本实现了数据的共享及通用能力的复用。当下,无论是微博推荐流、视频推荐和微博热搜等用户产品,还是超级粉丝通和粉丝头条等广告产品,都离不开技术中台的强有力支持。特别地,在中台建设过程中沉淀下来的数据技术和算法技术,已经成为各个产品和业务进行智能化升级和个性化改造的核心推动力。
本书作者充分结合了中外知名互联网企业的实践经验,对较为通用的算法技术、数据技术,以及背后的中台建设历程进行了较为详尽的介绍和总结。在此基础上,本书还对推荐系统、计算广告,以及本地生活服务这三个经典互联网业务中的实际产品进行了案例剖析,这些内容颇具实践价值和指导意义。本书文笔流畅,具有广阔的技术视野,内容颇具深度,是一本优秀的参考读物,特此推荐给互联网以及信息产业的相关从业人员。
——新浪微博CTO 刘子正

前言
成书背景
在中美各大互联网企业的中台战略实施过程中,人们对中台建设的目标逐步形成了原则性共识。大家普遍希望通过中台战略来实现数据整合、技术沉淀、能力共享和功能复用,并期望以此为切入点来引领组织架构的升级和重塑,从而大幅度提高研发效率、执行效率、组织效率和决策效率。毫无疑问,一个可靠且强大的中台可以为各种前台业务进行赋能,以便支撑它们进行快速试错、快速决策和能力提升。
在纷繁复杂的技术中台体系里,算法中台和数据中台是紧密联系的。算法对于挖掘数据的内在规律并充分发挥数据的潜在价值有着决定性意义,而数据又决定了算法的效果上限,并且大部分算法的生产过程离不开数据计算平台的有力支撑。由此可见,将算法中台与数据中台作为一个有机整体来进行技术规划、技术建设和实际应用具有充足的合理性和非凡的现实意义,这既是许多知名互联网公司的实践方式,也是本书创作的初衷和意义。
我们在对 Google、Facebook、新浪微博及滴滴出行等多家世界知名互联网企业的具体实践进行总结的基础上,围绕算法与数据中台的功能价值、构建思路、技术体系、实践案例和应用前景进行了深入讲解与剖析。我们建议并殷切希望读者带着思考来进行阅读,从而形成自己对于中台战略以及算法与数据中台的理解,并将书中符合自身需要的经验复用到日常的工作、学习和研究当中。
本书内容
本书分为 3 大部分,共 9 章,全面介绍了算法与数据中台的产生背景、技术体系和实践案例。
第 1 章对互联网企业的中台战略,特别是与算法技术和数据技术相关联的技术中台进行了背景分析和案例简介,并阐明了算法与数据中台的重要价值以及应用前景。
第 2 ~ 6 章对算法与数据中台的技术体系进行了深入剖析,并围绕基础设施平台、在线算法平台、机器学习平台、分布式数据库平台和大数据平台这几个核心的组成部分进行了详尽的技术探讨。
第 7 ~ 9 章选择推荐系统、计算广告和网约车平台这三个经典的互联网业务场景进行了案例分析,以便通过具体的应用实践来加深读者对于算法与数据中台的理解。
目标读者
? 互联网行业,特别是从事个性化系统、计算广告、大数据平台及技术中台建设的相关从业人员。作者希望本书能够为业界同行带来一定的感悟和启发,并希望书中部分成功的实践经验可以因地制宜地被推广和应用到更多的日常工作与研究当中。
? 对机器学习、深度学习、大数据和分布式计算感兴趣且有一定理论基础的读者。本书可以帮助这类读者对相关的技术要点和实施方案进行系统化的梳理,并引导他们对感兴趣的技术话题进行深入学习。
? 计算机专业的高年级本科生、研究生和博士生。本书具有广阔的技术视野且语言平实,有助于在校学生加深对计算机学科中的相关理论、技术和应用的理解,从而帮助他们构建一套较为完整的知识体系。
交流沟通
算法技术和数据技术的发展可谓日新月异、一日千里,而作者的精力和水平有限,因此本书内容难免有一些纰漏甚至错误。诚恳地邀请所有读者将阅读过程中所遇到的问题和困惑,以及建设性的改进意见反馈给我们,作者定当在力所能及的范围内第一时间回复有价值的邮件信息。
邮箱:algo.data.zy@gmail.com
QQ:2515475864
诚恳致谢
成书过程是艰辛的,十分感谢在本书的创作和出版过程中给予帮助、支持和鼓励的所有领导、同事、业界同行以及出版社的工作人员,祝大家心想事成。特别地,感谢毛镭在审稿和校对过程中给予的帮助与支持。
詹盈
中国北京 / 美国纽约
2020 年 7 月

目录

第1章 算法与数据中台概述 1
1.1 中台的背景和意义 1
1.2 算法与数据中台的功能价值 3
1.3 算法与数据中台的技术体系 4
1.4 算法与数据中台的实践场景 6
1.5 算法与数据中台的应用前景 7
1.6 本章总结 8
第2章 中台技术之基础设施 10
2.1 研发效率系统 10
2.1.1 代码组织和构建 11
2.1.2 代码审查和任务管理 13
2.1.3 持续集成 15
2.1.4 通用压测平台 17
2.2 服务通信系统 19
2.2.1 跨进程通信框架 20
2.2.2 服务注册与发现 21
2.2.3 服务治理 24
2.3 监控报警系统 25
2.3.1 通用系统架构 25
2.3.2 指标计算模型 26
2.3.3 开源解决方案 27
2.4 链路跟踪系统 29
2.4.1 应用场景与设计目标 30
2.4.2 系统架构 30
2.5 本章总结 32
第3章 中台技术之在线算法系统 33
3.1 物料检索系统 34
3.1.1 倒排检索 35
3.1.2 倒排索引实例 37
3.1.3 相似检索 38
3.1.4 相似检索实例 40
3.1.5 模型粗排 40
3.2 模型预估服务 41
3.2.1 整体架构 42
3.2.2 多框架支持 43
3.2.3 模型上线 44
3.2.4 在线预估 45
3.2.5 异构设备 46
3.2.6 性能优化 47
3.2.7 效果监控 49
3.3 策略机制引擎 50
3.3.1 整体架构 50
3.3.2 计算流解释器 51
3.3.3 Lua 解释器 52
3.4 集群管理平台 53
3.4.1 多租户架构 53
3.4.2 集群动态管理 54
3.4.3 集群性能监控 57
3.4.4 配置动态分发 59
3.5 效果评估系统 60
3.5.1 背景介绍 61
3.5.2 设计模式 61
3.5.3 系统架构 62
3.5.4 指标计算 64
3.6 本章总结 65
第4章 中台技术之机器学习平台 66
4.1 机器学习平台简介 66
4.1.1 机器学习的研发流程 67
4.1.2 机器学习的研发挑战 69
4.1.3 机器学习的研发技术 69
4.2 传统机器学习算法 73
4.2.1 线性算法 73
4.2.2 因子分解机算法 77
4.2.3 决策树算法 81
4.3 深度学习算法 84
4.3.1 发展简史 85
4.3.2 神经元模型 86
4.3.3 神经网络模型 87
4.3.4 神经网络的算法原理 88
4.4 模型框架基本原理 94
4.4.1 分布式计算架构 94
4.4.2 并行计算的同步机制 99
4.4.3 梯度更新算法 102
4.5 层结构的模型框架 108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小结 116
4.6 数据流结构的模型框架 116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小结 126
4.7 复合结构的模型框架 126
4.7.1 场景特点 126
4.7.2 设计思路 127
4.7.3 架构与实现 128
4.7.4 性能优化 131
4.7.5 小结 132
4.8 机器学习平台简介 132
4.8.1 单业务线开发阶段 132
4.8.2 平台化建设阶段 133
4.8.3 业界知名产品 134
4.9 新浪微博 WBL 机器学习平台 135
4.9.1 用户操作界面 136
4.9.2 管理中心 138
4.9.3 数据中心 140
4.9.4 调度中心 141
4.9.5 智能中心 144
4.9.6 模型中心 145
4.10 本章总结 147
第5章 中台技术之分布式数据库 148
5.1 分布式数据库概述 148
5.1.1 SQL 数据库 148
5.1.2 NoSQL 数据库 149
5.1.3 NewSQL 数据库 150
5.2 分布式数据库技术 150
5.2.1 ACID 理论 151
5.2.2 CAP 理论 151
5.2.3 BASE 理论 153
5.2.4 数据分片策略 154
5.2.5 数据复制策略 157
5.2.6 Gossip 协议 158
5.2.7 分布式一致性协议 160
5.2.8 分布式事务协议 167
5.3 分布式数据库产品 170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分布式数据库 177
5.4.1 系统架构 178
5.4.2 数据模型 179
5.4.3 分片策略 180
5.4.4 批量加载 181
5.4.5 同步机制 182
5.4.6 高可用架构 184
5.4.7 高性能方案 185
5.5 LaserDB 应用案例分析 188
5.5.1 数据缓存 188
5.5.2 特征服务 189
5.5.3 向量存储 190
5.5.4 样本拼接 190
5.6 本章总结 191
第6章 中台技术之大数据平台 192
6.1 大数据平台概述 192
6.1.1 大数据的特点 192
6.1.2 大数据平台的技术栈 193
6.2 分布式协调系统 194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系统 199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分布式文件系统 205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 消息管道系统 210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分布式计算系统 214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 数据仓库与分布式查询系统 221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章总结 227
第7章 中台实践之推荐系统 228
7.1 推荐系统的背景简介 228
7.1.1 场景概况 229
7.1.2 整体架构 230
7.1.3 推荐思路 233
7.2 推荐系统的算法模型 235
7.2.1 GBDT-LR 融合模型 235
7.2.2 Wide & Deep 模型 237
7.2.3 DeepFM 模型 238
7.2.4 双塔模型 238
7.2.5 多任务模型 239
7.2.6 算法的发展趋势 241
7.3 推荐系统的效果度量 244
7.3.1 体验指标 244
7.3.2 算法指标 245
7.4 Facebook 信息流推荐简介 250
7.4.1 数据分发系统 251
7.4.2 特征服务 252
7.4.3 索引系统 254
7.4.4 预估与排序服务 255
7.4.5 实时样本拼接服务 256
7.4.6 模型训练平台 257
7.5 本章总结 258
第8章 中台实践之数字广告 259
8.1 数字广告的背景简介 259
8.1.1 核心概念 260
8.1.2 合约广告 261
8.1.3 竞价广告 262
8.1.4 程序化交易广告 263
8.2 数字广告系统架构 264
8.2.1 业务平台 265
8.2.2 算法与数据中台 265
8.3 数字广告系统中的数据管理 266
8.3.1 站内数据 267
8.3.2 站外数据 267
8.4 数字广告系统中的受众定向 268
8.4.1 内容定向 268
8.4.2 用户标签定向 269
8.4.3 定制化标签定向 269
8.4.4 社交关系定向 270
8.4.5 智能定向 270
8.5 数字广告系统中的策略机制 270
8.5.1 流量预测 271
8.5.2 在线分配 271
8.5.3 频次控制 272
8.5.4 平滑投放 272
8.5.5 探索策略 273
8.5.6 智能出价 274
8.5.7 广告竞价 276
8.5.8 反作弊机制 277
8.6 本章总结 277
第9章 中台实践之网约车平台 278
9.1 业务简介 279
9.1.1 业务背景 279
9.1.2 运作流程 281
9.1.3 用户体验 281
9.2 技术架构 282
9.2.1 分层系统架构 282
9.2.2 业务中台 283
9.2.3 算法与数据中台 285
9.3 打车定价场景 286
9.3.1 场景描述 286
9.3.2 价格动态下浮策略 287
9.3.3 价格动态上浮策略 289
9.3.4 小结 290
9.4 打车排队场景 290
9.4.1 场景描述 290
9.4.2 排队时间预估策略 291
9.4.3 小结 292
9.5 打车安全场景 292
9.5.1 场景描述 292
9.5.2 安全策略 293
9.5.3 小结 294
9.6 本章总结 294
参考文献 295

读者评论

电子书版本

  • Epub