数据天才：数据科学家修炼之道-图书

推荐0
收藏4
浏览2.2K

数据天才：数据科学家修炼之道

[美] Vincent Granville（文森特·格兰维尔） (作者)　吴博 , 张晓峰 , 季春霖 (译者) 付睿 (责任编辑)

书　　号：978-7-121-30883-3
出版日期：2017-05-09
页　　数：356
开　　本：16(185*235)
出版状态：上市销售
原书名： Developing Analytic Talent: Becoming a Data Scientist
原书号：9781118810088
维护人：付睿

纸质版￥85.00

这是一本跟数据科学和数据科学家有关的“手册”，它还包含传统统计学、编程或计算机科学教科书中所没有的信息。
本书有3个组成部分：一是多层次地讨论数据科学是什么，以及数据科学涉及哪些其他学科；二是数据科学的技术应用层面，包括教程和案例研究；三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源（如数据集、网络爬虫源代码、数据视频和如何编写API），所以借助本书，你现在就可以开始数据科学实践，并快速地提升你的职业水平。

多层次讨论数据科学是什么，包含丰富的教程和案例研究，提供大量职业资源，是数据科学家的求职与准备必备指南

译者序
本书最适合有志于在大数据与数据科学领域从业的人学习。格拉德威尔在《异类》一书中强调，“若要成为行业专家，离不开十万小时的刻意学习（deliberate learning）”，这跟中国俗语里“板凳要坐十年冷”有些类似。但要实现刻意学习，就不能一味依赖通识科普书籍。在大数据与数据科学领域，市面上已不缺通识性的科普书籍，唯缺这类烧脑、有专业性、适合进行刻意学习的数据科学书籍。
本书不失专业性，但也不是令人生畏的大学教材。它处处体现理论与实践的结合，还兼顾技术与商业的平衡。这要归功于原作者Vincent是学术、技术、商业三栖高手。比如书中对于星空双星的估算、陨石撞地球的建模推算，让作者在数学奥赛方面的天分展现得淋漓尽致；在垃圾邮件、水印加密、点击欺诈等案例中，作者又分享了诸多为大公司实施数据项目的经验；在方案选择、股市预测等场景中，作者更侧重商业视角，帮读者提升对数据科学方法投入/产出比及适用性的敏感度。
本书虽然专业度高，但也因为案例翔实、讲求实际，适合其他行业或领域的人士阅读。特别建议业务跟数据息息相关的企业负责人或高管，或者对数据相关项目感兴趣的投资者品读。毕竟数据科学家这一高层职位，跟企业负责人及高管的对接较多。虽说好的数据科学家，应具备与非技术人士沟通的能力，但作为数据科学家的领导，一旦多懂一些数据科学的思考模式及流程，便会对数据科学家有更多理解，也会对数据化的决策有更深的认识。
本书也传递出对行业热词的审慎态度。比如本书就对“大数据”的缘起、演变、更替、历史、迷思和幻象，着墨不少。就像书中所说，大数据领域许多看似新的方法，可以追溯到二三十年前，如今的不少创新，实乃新瓶旧酒。想必读者从Gartner的成熟度曲线里，可以看到大数据一词已渡过巅峰、渐趋理性，与之相随的，是跟数据科学息息相关的人工智能（AI）重新崛起。若理解本书的立场和价值取向，就知道人工智能60多年来几起几落，不少如今大放异彩的方法，也可找到前身。透过现象看本质，人工智能多少因为数据体量更大、数据分析更细、计算能力更强，才成为行业焦点。忽视基础理论盲目追随人工智能热点无异于舍本逐末，认真和刻意学习数据科学及人工智能的基础理论和实践，方是正途。
正因为这本书内容如此之好，能满足读者所需，于是我痛快答应电子工业出版社付睿编辑的邀约来翻译本书。但这个小想法变成最终成品，却耗费不少人的时间和精力，对他们的感谢和亏欠不能尽录。我最要鸣谢翻译合作者光启研究院的副院长季春霖博士，还有在哈工大深圳研究生院任教的张晓峰博士，两位的研究和管理任务都很繁重，面对译书这种流程漫长、成效滞后的工作，他们展现了学界出身的坚韧素养，而在翻译校对本书的过程中，又处处体现出手不凡的专业功力。同时，也要感谢配合翻译校对本书的助手和出版社工作人员，他们对我有莫大的包容和支持。本书准备期间，也正是我的一对小孩——泰学和雅学——从孕育到出生的过程，所以要感谢我的太太熊瑛，容许我为本书挤出不少本来可以陪伴家人的时间。
最后，我还要代表季春霖博士感谢广东省自然科学杰出青年基金项目（No.S20120011253）和深圳市数据科学与建模技术重点实验室的资助。也要感谢我所在的宜远智能团队，他们在将本书中许多数据科学方法实践到医疗健康领域时，提出了诸多宝贵的翻译修正补充建议。当然，对专业内容的翻译，难在对作者见识的理解和原意的把握，所以总有力有不逮、不甚精确之处，请各位读者和专家对此海涵，提出宝贵的建议。
本书译者吴博
前言
这是一本跟数据科学和数据科学家有关的“手册”，它还包含传统统计学、编程或计算机科学教科书中所没有的信息。凭借作者在数据科学领域20多年的领导者地位，他在本书中收集了他认为对从事数据科学职业最重要的一些信息。在过去3年里，本书中的很多内容首先被发表在Data Science Central官网上，被数百万的网站用户所阅读。本书介绍了数据科学与其他相关领域的差异，以及使用大数据能给组织带来的价值。
本书有3个组成部分：一是多层次地讨论数据科学是什么，以及数据科学涉及哪些其他学科；二是数据科学的技术应用层面，包括教程和案例研究；三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源（如数据集、网络爬虫源代码、数据视频和如何编写 API），所以借助本书，你现在就可以开始数据科学实践，并快速地提升你的职业水平。如果你是一位决策者，你会在本书中找到一些信息，来帮助你建立更好的分析团队，以及决定是否需要及何时需要专业的解决方案，以及哪些方案最为恰当。

这本书是写给谁的
这本书是写给数据科学家和相关专业人士的（如业务分析师、计算机科学家、软件工程师、数据工程师和统计学家），以及有兴趣转投大数据科学事业的人。本书也是为学习定量课程、想成为数据科学家的大学生所准备的。最后，本书也可供数据科学家的上级领导、想创建数据科学初创公司开展业务或提供数据科学咨询的人阅读。
这些读者将在本书中找到有价值的信息，特别是在以下几章中。
?第2、4、5、6章对数据科学工作者特别有价值，因为它们包含大数据技术内容（如聚类和分类技术），以及前沿数据科学技术，如组合特征选择、隐性决策树、分析类API、判断MapReduce何时有用等。这些章节里很多案例研究（如欺诈检测、数字分析、股票市场策略和其他更多）的说明非常详细，详细到可以让读者在实际工作中面临类似数据时，能沿用这些案例的分析方法。然而，它们的文字描述都很简单，高层管理人员不用花太多时间在细节、代码或公式上，也能阅读下来。
?修读计算机科学、数据科学或工商管理硕士课程的学生，会在第2、4、5、6章中找到对他们有用的信息。特别是在第2、4、5章，他们能从中找到进阶内容，如实际的数据科学方法和原则，这些在一般的教科书或典型的大学课程里都没有。第6章还介绍了现实生活应用和案例研究，并包含更深入的技术细节。
?求职者将会在第3章中找到有关数据科学的培训和课程资源。第7、8章为求职者提供了大量的资源，包括面试问题、简历模板、招聘广告样板，经常招聘数据科学家的公司的清单，以及薪资调查等。
?对于想要创建一个数据科学创业公司或顾问公司的企业家，在第3章中会找到商业计划书样板、创业公司点子和针对顾问职位的薪酬调查。同时，在本书中，数据顾问会了解如何提高数据科学工作沟通效率，掌握数据科学项目的生命周期，并得到相关书籍、会议参考和许多其他资源。
?对于试图评估数据科学的价值和它们对企业项目的益处，以及评估MapReduce架构何时有用的高管们，会在第1、2、6（案例部分）、8章（招聘广告样板、简历、薪金调查）中找到有价值的信息。这些章节的重点通常不是技术。顶多会在第2章和第6章介绍一些新的分析技术。
这本书涵盖了什么
本书的技术部分包括数据科学的核心内容，比如：
?将大数据和传统的算法应用到大数据时的挑战（例如在进行大数据聚类或分类时的解决方案）。
?一种统计科学上新颖、简化、对数据科学友好的方法，重点在于它是一种健壮的无模型方法。
?顶尖的机器学习方法（隐性决策树和组合特征选择）。
?新型数据的新指标（综合指标、预测能力、波动系数）。
?创建快速算法所需的计算机科学要素。
?MapReduce和Hadoop，以及Hadoop进行计算时的数值稳定性。
重点还是最新的技术。在本书中你不会找到关于旧技术的资料介绍，如线性回归（除非在引文里涉及），因为这些在经典书籍里已经讨论了很多。在本书中，对逻辑回归类的知识讨论不多。我们只是将逻辑回归与其他分类器混合，提出一种数值稳定的近似算法（近似的解决方案往往和精确模型一样有效，毕竟没有任何数据完全符合理论模型）。
除了技术，本书还提供了有用的工作资源，包括工作面试的相关问题、简历模板和招聘广告样板。本书的另一个重要组成部分是案例研究。本书的案例研究，有些带有统计或机器学习的意味，有些则跟商业或决策科学或运筹学有关，有些则关乎数据工程。大多数时候，我喜欢Data Science Central（这是个数据科学家的领先社区）上最新发表和非常热门的主题，而不是我特别重视的话题。
本书是如何架构的
本书由三大主题构成。
?数据科学和大数据是什么和不是什么，以及与其他学科的区别（第1、2、3章）。
?职业和培训资源（第3章和第8章）。
?用作教程的技术材料（第4章和第5章，以及第2章中关于大规模数据集聚类和分类的内容，第8章中关于Hadoop 的新变化和大数据的内容），以及案例研究（第6章和第7章）。
本书为潜在的和现有的数据科学家和相关专业人员（以及他们的管理者和老板）提供了宝贵的职业资源。宽泛而言，本书适用于所有处理更大、更复杂、更新、频率更快的数据的专业人士。本书还提供一些数据科学的秘诀、技巧、概念（其中许多是原创和首次公开的）、带实施方法和技术的案例研究，以及已经在不同领域，不论是手动还是自动，能成功分析现代数据的技术。
阅读本书你需要什么知识
这本书包含了少量的R或Perl示例代码。你可以在http://www. activestate.com/activeperl/downloads下载Perl，在http://cran. r-project.org/bin/windows/base/下载 R。如果你使用Windows 计算机，首先需要安装一个Linux式环境：Cygwin。你可以在http://cygwin. com/install.html上下载Cygwin软件。Python也是开源的，且有一个有用的、被称为Pandas的库。
如果你有一两年大学基本定量课程的知识基础，就足以理解书中大多数内容。本书不需要微积分或高等数学的相关知识——事实上，它几乎不包含任何数学公式或符号。
然而，本书也包含一些高度概括性的进阶材料。本书中的一些技术讲义，是针对那些对数学更有倾向和有兴趣深入挖掘的读者。有两年大学微积分、统计学和矩阵理论知识的读者，将能更好地理解这些技术细节。本书提供了一些源代码（R、Perl）和数据集，但本书的重点不是编码。
本书通过多种技术水平混合的介绍方式，让你不用具备高级数学知识，也有机会深度探索数据科学（这有点像 Carl Sagan 向主流公众介绍天文学的方式）。
惯例标记
为了帮助你从本书中学到最多的东西，而不是一头雾水，我们将在本书中使用惯例标记。
注意本书中的注意、提示、交叉参考，以及对当前讨论的辅助说明，将像这个注意的方式显示。
至于文本的样式标记如下。
?当我们介绍术语和重要的词时，我们会用楷体突出它们。
?快捷键用这种方式表示：Ctrl+A。
?我们在书中显示文件名、链接和代码的格式如下。
persistence.properties
?我们介绍代码的格式如下。
对于大多数代码，我们使用Courier New字体，不加粗。
致谢
我要感谢来自Wiley的Chris Haviland和Carol Long，他们对本书的出版有很大的贡献，承担了不少风险，他们把我很多有价值、分散未经组织的在线文章，整合成一本连贯、全面和有用的书。从许多方面来看，这个复杂的过程类似于将非结构化数据转化为结构化数据，这是许多数据科学家经常面对的常规挑战，而这本书也正好提供了将非结构化数据转化为结构化数据的解决方案。同时，我要感谢我的商业伙伴和共同创始人 Tim Matteson，他帮助Data Science Central这个网站成为数据科学社区的领导者，还变成了一个现代的、专注于产生价值的创业项目。最后，我要感谢我们社区的所有成员，感谢他们的评论和支持。如果没有他们的帮忙，本书也无法出版。
读者服务
轻松注册成为博文视点社区用户（www.broadview.com.cn），扫码直达本书页面。
?提交勘误：您对书中内容的修改意见可在提交勘误处提交，若被采纳，将获赠博文视点社区积分（在您购买电子书时，积分可用来抵扣相应金额）。
?交流互动：在页面下方读者评论处留下您的疑问或观点，与我们和其他读者一同学习交流。
页面入口：http://www.broadview.com.cn/30883

第1章数据科学是什么 1
真伪数据科学对比 2
伪数据科学的两个例子 5
新大学的面貌 7
数据科学家 10
数据科学家与数据工程师 10
数据科学家与统计学家 12
数据科学家与业务分析师 13
13个真实世界情景中的数据科学应用 14
情景1：国家对烈性酒销售的垄断结束后，DUI（酒后驾驶）逮捕量减少 15
情景2：数据科学与直觉 17
情景3：数据故障将数据变成乱码 19
情景4：异常空间的回归 21
情景5：分析与诱导在提升销量上有何不同价值 22
情景6：关于隐藏数据 24
情景7：汽油中的铅会导致高犯罪率。真的吗 25
情景8：波音787（梦幻客机）问题 26
情景9：NLP的7个棘手句子 27
情景10：数据科学家决定着我们所吃的食品 28
情景11：用较好的相关性增加亚马逊的销售量 30
情景12：检测Facebook上的假档案或假“喜欢”数 32
情景13：餐厅的分析 33
数据科学的历史、开拓者和现代趋势 33
统计学将会复兴 34
历史与开拓者 36
现代的趋势 38
最近的问答讨论 40
总结 44
第2章大数据的独特性 45
两个大数据的问题 45
大数据“诅咒” 45
数据快速流动问题 50
大数据技术示例 56
大数据问题是数据科学所面临挑战的缩影 56
大规模数据集的聚类和分类 58
1亿行的Excel 63
MapReduce不能做什么 67
问题 67
3种解决方案 68
结论：何时使用MapReduce 69
沟通问题 70
数据科学：统计学的终结 72
8种最差的预测建模技术 72
把计算机科学、统计学和行业专业知识结合在一起 74
大数据生态系统 78
总结 79
第3章成为一名数据科学家 80
数据科学家的主要特征 80
数据科学家的职能 80
横向与纵向数据科学家 83
数据科学家的类型 86
伪数据科学家 86
自学成才的数据科学家 86
业余数据科学家 87
极限数据科学家 89
数据科学家人群特征 90
数据科学方面的培训 91
大学课程 91
公司和协会培训项目 95
免费培训项目 96
数据科学家职业道路 98
独立顾问 98
创业者 105
总结 118
第4章数据科学的技术（I） 119
新型指标 120
优化数字营销活动的指标 121
欺诈检测的指标 122
选择合适的分析工具 124
分析软件 124
可视化工具 125
实时产品 126
编程语言 128
可视化 128
用R生成数据视频 129
更复杂的视频 133
无模型的统计建模 134
无模型的统计建模是什么 135
该算法是如何工作的 135
源代码生成数据集 137
三类指标：中心性、波动性、颠簸性 137
中心性、波动性和颠簸性之间的关系 138
定义颠簸性 138
在Excel中计算颠簸性 139
使用颠簸系数 141
大数据的统计聚类 141
大数据的相关性和拟合度 143
一系列新的秩相关性 146
渐近分布与归一化 148
计算复杂度 152
计算q(n) 152
理论上的解决方案 155
结构系数 156
确定簇的数量 157
方法 157
例子 158
网络拓扑映射 159
安全通信：数据加密 163
总结 166
第5章数据科学的技术（II） 167
数据字典 168
什么是数据字典 168
建立数据字典 169
隐性决策树 169
实现方法 171
示例：互联网流量打分 173
结论 175
与模型无关的置信区间 175
方法 175
分析桥第一定理 176
应用 177
源代码 178
随机数 179
解决问题的4个办法 181
拥有超强直觉能力的业务分析师的直观法 182
软件工程师的蒙特卡洛模拟法 182
统计学家的统计建模方法 183
计算机科学家的大数据方法 183
因果关系和相关性 183
怎样检测因果关系 184
数据科学项目的生命周期 186
预测模型的错误 189
逻辑相关回归 191
变量之间的相互作用 191
一阶近似 191
二阶近似 193
用Excel进行回归分析 195
实验设计 196
有趣的指标 196
把患者分成不同的人群进行治疗 196
私人定制的治疗 197
分析即服务和应用程序接口 198
工作原理 199
实施案例 199
关键词相关的API的源代码 200
其他主题 204
当数据库改变时，保存好数值 204
优化网络爬虫 205
哈希连接 206
用于模拟簇的简单源代码 207
Hadoop和大数据的新型合成方差 208
Hadoop和MapReduce的介绍 208
综合指标 209
Hadoop、数值的和统计的稳定性 210
方差的抽象概念 211
一个新的大数据定理 213
平移不变性的度量标准 214
实现：通信和计算成本 214
最终意见 215
总结 215
第6章数据科学应用案例研究 217
股票市场 217
使回报率提高500%的模式 217
优化统计交易策略 220
股票交易的API：统计模型 222
股票交易的API：具体实现 225
股票市场模拟 226
些许数学知识 229
新趋势 231
加密 232
数据科学应用：隐写术 232
好的电子邮件加密 236
验证码破解 239
欺诈检测 240
点击欺诈 241
连续点击评分与二进制欺诈/非欺诈 242
数学模型与基准 244
虚假转化产生的偏差 245
一些误解 246
统计面临的挑战 246
点击评分优化关键词出价 247
组合优化自动快速的特征选择 249
特征的预测能力：交叉验证 250
勾连检测和僵尸网络的关联规则检测 254
模式检测的极值理论 255
数字分析 256
在线广告：到达率和频率的计算公式 256
电子邮件营销：提高300%的性能 257
在7天内优化关键词广告宣传活动 258
自动新闻提要优化 260
用bit.ly进行竞争情报分析 261
测量 Twitter 哈希标签（hashtag）的收益 263
用3个修补方法提升谷歌搜索 267
改进相关性的算法 270
广告循环问题 272
杂项 273
简单模型会获得更好的销售预测 273
更好的医疗欺诈检测 275
归因模型 276
预测陨石撞击 277
在路口停车场收集数据 281
数据科学的其他应用 282
总结 282
第7章踏上你的数据科学职业之路 283
面试问题 283
关于工作经验的问题 283
技术问题 285
一般性问题 286
关于数据科学项目的问题 288
测试你自己的视觉和分析思维 291
通过肉眼的检测模式 292
识别偏差 294
误导性的时间序列和随机游走 295
从统计学家到数据科学家 296
数据科学家也是统计从业人员 297
谁应该给数据科学家教统计学 298
雇佣问题 298
数据科学家与数据架构师密切合作 299
谁应该参与战略思考 299
两种类型的统计学家 300
大数据与取样 301
数据科学家的分类 302
数据科学最流行的技能集合 302
LinkedIn上的顶级数据科学家 306
400个数据科学家职位头衔 309
薪酬调查 311
根据技能和位置的薪酬分类 312
创建自己的薪酬调查表 316
总结 317
第8章数据科学资源 318
专业资源 318
数据集 318
书籍 319
会议与组织 322
网站 324
概念定义 324
职业建设资源 327
招聘数据科学家的公司 328
数据科学招聘广告的样本 329
简历样本 329
总结 331