数据科学家养成手册
  • 推荐0
  • 收藏2
  • 浏览317

数据科学家养成手册

高扬 (作者) 

  • 书  号:978-7-121-31304-2
  • 出版日期:2017-05-01
  • 页  数:376
  • 开  本:16(185*235)
  • 出版状态:图书立项
  • 维护人:潘昕

相关图书

Java微服务实战

本书分为三部分:基础框架篇(1~6章)、服务框架篇(7~10章)、监控部署篇(11~13章),由浅入深来讲解微服务的相关技术。基础框架篇从微服务架构的基本概念与...

¥69.00

从芯片到云端:Python物联网全栈开发实践

刘凯 (作者)

物联网开发重新定义了“全栈开发”的范围。Python作为一门快速发展的语言,已经成为系统集成领域的优选语言之一,其可覆盖从电路逻辑设计到大数据分析的物联网端到端...

 

自然语言处理技术入门与实战

兰红云 (作者)

本书主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。对于每一个算法又分别从应用原理、数学原理、代码实现,...

¥59.00

深度学习入门之PyTorch

廖星宇 (作者)

深度学习如今已经成为了科技领域最炙手可热的技术,在本书中,我们将帮助你入门深度学习的领域。本书将从人工智能的介绍入手,了解机器学习和深度学习的基础理论,并学习如...

¥79.00

相关性搜索:利用Solr与Elasticsearch创建智能应用

Doug Turnbull John Berryman (作者) 莫映 蔡宇飞 殷志勇 (译者)

本书揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可编程的相关性框架,从而表达业务排名规则。从这本书中你可...

 

智能汽车安全攻防大揭秘

360独角兽安全团队(UnicornTeam) 李均 杨卿 等编著 (作者)

本书先针对汽车研发人员介绍了一些安全基础知识,如加密解密、安全认证、数字签名、常见攻击类型和手段等,然后针对安全研究人员介绍了一些智能汽车的工作原理,如汽车的内...

¥59.00
作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人,初级和中级程序员、架构师及希望通过对数据的感知改进工作的人,产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人,以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。
数据科学是当今社会越来越重视的一个分支学科,在我们生活和生产中的方方面面渗透越来越深,也同时扮演者更为重要的角色。现在市面上的书籍大多是针对一个具体学科分支,还没有一本书从人类认知归纳开始进行系统化地做数据科学的总结,也没有一本书是做数据科学家素质总结的。这本书正好填补这一类选题的空白。
高扬,北京邮电大学计算机专业毕业,重庆工商大学管理科学与工程专业硕士研究生事业导师。10年以上IT行业工作经验,3年海外工作经验。2010年后一直专注于数据库、大数据、数据挖掘、机器学习、人工智能等相关领域的研究。曾在金山软件西山居任大数据架构师,负责大数据平台构架与搭建。现任欢聚时代资深大数据专家,负责大数据、深度学习等基础技术与理论研究和实际产品的结合。
为什么要写这本书
随着计算机科学和数据科学的发展,越来越多的人开始把目光投向其中最为耀眼的互联网、物联网、大数据、人工智能等高新技术领域,并且有相当多的高级技术人才已经在这些领域获得了令人瞩目的成就。
在追逐信息技术发展浪潮的过程中,数据科学成为人们在信息技术海洋中遨游所沉淀下来的理论与科学基础。我们都渴望通过对数据科学的理解来对生产工作进行指导和改善,这种工作的意义与其他各种在信息技术产业一线工作所创造价值的意义一样非比寻常。它给我们更广的辩证思考的空间,更高的观察事物的眼界,更多的自新的维度与动力。它是那么神秘且有趣。
数据科学到今天已经渗透到我们每个人的工作和生活之中。在你早上起来赶公车或者地铁的时候,你其实正在享受由数据科学辅助进行的精确调度服务;在你阅读工作报表的时候,你其实正在享受由数据科学辅助进行的大数据统计服务;在你吃午餐的时候,你其实正在享受由数据科学辅助进行的外卖快餐数据分发或食堂菜品改良服务;当你晚上回到家,在网上尽情购物的时候,你其实正在享受由数据科学辅助进行的高效电子商务和智能推荐服务。驾车出行有智能导航,就医问药有分诊机器人……也许你的家人或者朋友现在就在自己的工作岗位上,作为一名普通的销售人员、产品经理、人力资源师、售后服务人员、商务代表等,通过数据决策系统、数据库甚至电子表格来观察数据,做出判断,开展工作。数据科学给我们带来的红利已经紧紧把我们包围。
这本书绝无说教的想法,而是希望以书为媒,用谈天说地的方式,以激发每个人的思考为主要手段,归纳总结数据科学的实质及成就一位数据科学家所需要的基本素养。
遗憾的是,越是基础性、本源性的学科,与变成现实利益的距离也就越远,让人觉得似乎不够实惠,不够亲近。至少读完这本书没办法帮你直接在第二天变出米饭、房子和汽车。不过我认为,楼房再高再漂亮,也需要人们看不到的深厚地基来支持;花儿再芬芳再娇艳,也需要在土壤之下吮吸养分的丰富根系来供能。这些看不到的东西,往往起着我们无法想象的巨大作用,而这才是我希望与你一同讨论并思考的。
我们热爱生活,我们热爱所做的工作,我们希望在不断的攀登中看到更深更远的世界并去伪存真。那就让我们在点点滴滴的知识片段中一起开始慢慢思索、细细揣摩这一养成过程吧。
本书特色
本书从众多先贤及科学家的轶事开始讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,将这本书变成一本具有一定思维升华价值的参考书,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。
本书并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
简洁与深刻并重是本书的另一大特点。作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。
读者对象
(1)大数据从业人员和对大数据相关知识感兴趣的人。
(2)初级和中级程序员、架构师,以及希望通过对数据的感知改进工作的人。
(3)产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人。
(4)希望在思维方式领域进行拓展的高校毕业生和希望接触并了解数据科学的社会人员。
(5)所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人。
如何阅读本书
本书分为3篇,分别是认知篇、分化篇和实践篇。
认知篇(第1章~第7章)
归纳了什么是科学,数据科学的范围、定义与实践价值,以及辩证思维、哲学和实验的关系等问题。这些是认知观点的基石。
分化篇(第8章~第11章)
重点介绍了数据科学中与现代社会各行业联系最为紧密的统计学、信息论、算法学,另外把混沌论作为一个知识点进行了补充。这些是认知观点在不同细分学科中所形成的一些具体解决问题的思维方式和科学观点。
实践篇(第12章~第18章)
沿着数据生命周期进行演进。任何行业的数据生命周期都是按照采集、存储、统计与建模、算法、可视化与分析、决策支持的沿革来进行的,本篇对各个环节的注意事项和思维方式都做了详细的讨论,并在第18章介绍了两个具体的数据分析案例。
在本书的最后,补充了过去与同行们讨论过的,并在会议演讲及日常分享的过程中总结出来的一些精彩问答。
如果你希望读完这本书后能够在数学方面有很大的提升,在工程代码能力方面有巨大的进步,这本书恐怕帮不上什么大忙。但我相信,在读完这本书后,你会在一些以前并不熟知的领域有所了解和感悟,并逐步完善理解和分析问题的视角。如果你不是数据研究人员,也可以把这本书当成一个休闲读本。这本书里既没有太多的公式,也没有太过高深的理论,有的只是我在和你攀谈的过程中与你一起发现的新视角。
特别致谢
感谢绘麟社相辉先生和李晓林女士对本书的插画助力。
参加本书编写工作的有高扬、卫峥、左妍、尹会生、杨艺、陈钢、肖力。
勘误和支持
由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果您有更多的宝贵意见,欢迎扫描本页的二维码,关注“奇点大数据”微信公众号与我们进行互动讨论。本书后续的代码上传及勘误等相关更新内容都会在这个微信公众号发布。关注大数据尖端技术发展,关注奇点大数据。
同时,您也可以通过邮箱77232517@qq.com与我联系,期待能够得到您的真挚反馈,在技术之路上互勉共进。
高 扬
2017年1月于珠海

目录

认知篇
第1章 什么是科学家 2
1.1 从太阳东升西落开始 2
1.1.1 农历 2
1.1.2 公历 5
1.1.3 小结 7
1.2 阿基米德爱洗澡? 7
1.3 托勒密的秘密 10
1.4 牛顿为什么那么牛 11
1.4.1 苹果和三大定律 11
1.4.2 极限和微积分 12
1.5 高斯——高,实在是高 15
1.6 离经叛道的爱因斯坦 17
1.7 本章小结 20
第2章 什么是科学 23
2.1 科学之科 23
2.2 边界的迷茫 23
2.3 科学之殇 26
2.4 本章小结 27
第3章 数据与数学 28
3.1 什么是数据 28
3.2 数学的奥妙 29
3.2.1 《几何原本》 29
3.2.2 《九章算术》 30
3.2.3 高等数学 34
3.3 本章小结 37
第4章 数据科学的使命 38
4.1 走近数据科学 38
4.1.1 介质 38
4.1.2 从信息到数据 41
4.1.3 数据科学的本质 43
4.2 万能的数据科学 44
4.2.1 测量 44
4.2.2 统计计算 47
4.2.3 指标 52
4.3 使命必达 53
4.3.1 高效生产 53
4.3.2 破除迷信 56
4.3.3 目标一致与不一致 57
4.4 本章小结 58
第5章 矛盾的世界 59
5.1 古希腊——学者高产的国度 59
5.2 矛盾无处不在 61
5.3 世界究竟是否可知 63
5.4 薛定谔的“喵星人” 64
5.5 本章小结 66
第6章 实验和哲学 68
6.1 朴素的认知方法 68
6.1.1 眼见为实 69
6.1.2 归纳与总结 70
6.2 哲学靠谱吗 71
6.3 数学的尽头是哲学 72
6.4 本章小结 73
第7章 辩证思维 74
7.1 要不要辩证有多大区别 74
7.2 谁对谁错 76
7.3 做到客观不容易 77
7.4 观念的存弭 79
7.5 本章小结 82
分化篇
第8章 统计学 86
8.1 数理统计鼻祖—阿道夫•凯特勒 86
8.2 统计就是统共合计 88
8.3 数据来源 90
8.4 抽样 91
8.5 对照实验 91
8.6 误差 94
8.6.1 抽样误差 94
8.6.2 非抽样误差 96
8.7 概括性度量 97
8.7.1 集中趋势度量 98
8.7.2 离散程度度量 100
8.7.3 小结 100
8.8 概率与分布 100
8.8.1 数学期望 102
8.8.2 正态分布 103
8.8.3 其他分布 106
8.9 统计学与大数据 107
第9章 信息论 109
9.1 模拟信号 109
9.2 信息量与信息熵 110
9.3 香农公式 111
9.4 数字信号 112
9.5 编码与压缩 113
9.5.1 无损压缩 114
9.5.2 有损压缩 117
9.6 本章小结 126
第10章 混沌论 127
10.1 洛伦兹在想什么 128
10.2 罗伯特•梅的养鱼计划 129
10.3 有限的大脑,无限的维 130
10.4 谋杀上帝的拉普拉斯 132
10.5 庞加莱不是省油的灯 134
10.6 未知居然还能做预测 137
10.7 本章小结 137
第11章 算法学 139
11.1 离散的世界 139
11.2 成本的度量 142
11.3 穷举法——暴力破解 143
11.4 分治法——化繁为简 152
11.5 回溯法——能省则省 154
11.6 贪心法——局部最优 155
11.7 迭代法——步步逼近 156
11.7.1 牛顿法 157
11.7.2 梯度下降法 158
11.7.3 遗传算法 159
11.8 机器学习——自动归纳 161
11.8.1 非监督学习 162
11.8.2 监督学习 164
11.8.3 强化学习 176
11.9 神经网络——深度学习 178
11.9.1 神经元 178
11.9.2 BP神经网络 180
11.9.3 损失函数 181
11.9.4 非线性分类 183
11.9.5 激励函数 187
11.9.6 卷积神经网络 189
11.9.7 循环神经网络 191
11.9.8 小结 194
11.10 本章小结 195
实践篇
第12章 数据采集 198
12.1 数据的源头 198
12.2 日志收集 199
12.2.1 实时上传 200
12.2.2 延时上传 203
12.2.3 加密问题 204
12.2.4 压缩问题 205
12.2.5 连接方式 206
12.2.6 消息格式 208
12.2.7 维度分解 210
12.3 这只是不靠谱的开始 211
12.4 本章小结 212
第13章 数据存储 213
13.1 读写不对等 213
13.1.1 读多写少 214
13.1.2 读少写多 214
13.1.3 读写都多 215
13.2 进快还是出快 216
13.2.1 最快写入 216
13.2.2 读出最快 218
13.3 文件还是数据库 218
13.4 要不要支持事务 219
13.5 表分区和索引 221
13.5.1 表分区 222
13.5.2 索引 222
13.6 稳定最重要 225
13.7 安全性和副本 226
13.7.1 RAID 226
13.7.2 软冗余 228
13.8 本章小结 229
第14章 数据统计 230
14.1 此“统计”恐非彼“统计” 230
14.2 要精确还是要简洁 234
14.3 统计是万能的吗 235
14.4 注意性能 237
14.5 本章小结 238
第15章 数据建模 239
15.1 模型是宝贵的财富 240
15.2 量化是关键 241
15.3 该算法出马了 241
15.3.1 统计学模型 242
15.3.2 线性关系 243
15.3.3 复杂的非线性关系 243
15.4 算法的哲学 244
15.5 本章小结 245
第16章 数据可视化与分析 247
16.1 看得见,摸得着 247
16.2 颜色很重要 247
16.3 别说布局没有用 249
16.3.1 由上而下,由简而繁 249
16.3.2 总-分,分-总,总-分-总 251
16.3.3 毗邻吸引 252
16.4 有图就别要表格 253
16.5 分析的内涵 254
16.5.1 相关性分析 255
16.5.2 预测分析 256
16.5.3 其他分析 257
16.6 有趣的统计应用 257
16.6.1 不规则图形的面积 258
16.6.2 套出你的实话 258
16.6.3 巧测圆周率 259
16.7 仁者见仁,智者见智 260
16.8 永恒的困惑 261
16.9 本章小结 263
第17章 数据决策 264
17.1 决策就是“拍脑袋” 264
17.2 哪里有物质,哪里就有数据 265
17.2.1 目的的统一 265
17.2.2 数据胜于雄辩 266
17.3 这是风险博弈 267
17.3.1 性价比优先 267
17.3.2 小迭代至上 268
17.3.3 不要“输不起” 268
17.3.4 留得青山在 269
17.4 本章小结 270
第18章 案例分析 272
18.1 K线图里的秘密 272
18.1.1 什么是市场 273
18.1.2 谁在控制价格 273
18.1.3 货币价格的形成 276
18.1.4 零和博弈 277
18.1.5 涨跌都盈利 278
18.1.6 价格的预测 279
18.1.7 形态 280
18.1.8 K线图周期 282
18.1.9 造市商与点差 283
18.1.10 科学分析 284
18.1.11 小结 317
18.2 数学能救命 317
18.2.1 阴云下的大西洋 317
18.2.2 护航船队的救星 318
18.2.3 数学家的天下 324
18.2.4 小结 324
18.3 人人都能运筹帷幄 325
第19章 与本书相关内容的问与答 326
后记 333
附录A 335
A.1 VMware Workstation的安装 335
A.1.1 VMware简介 335
A.1.2 安装准备工作 335
A.2 CentOS虚拟机的安装 338
A.2.1 下载DVD镜像 338
A.2.2 创建VMware虚拟机 338
A.3 Ubuntu虚拟机的安装 344
A.4 Python语言简介 350
A.4.1 安装Python 350
A.4.2 Hello Python 350
A.4.3 行与缩进 350
A.4.4 变量类型 351
A.4.5 循环语句 352
A.4.6 函数 353
A.4.7 模块 354
A.4.8 小结 354
A.5 Scikit-learn库简介 355
A.6 安装Theano 356
A.7 安装Keras 356
A.8 安装MySQL 357
A.9 安装MySQL-Python驱动 358
A.10 MT4平台简介 359
参考文献 363

读者评论

相关博文

  • 游戏AI小试牛刀(1)

    游戏AI小试牛刀(1)

    高扬 2017-05-23

    现在大家在各种领域使用机器人的事情是越来越多,包括在家政领域和教学领域等等这些在我们身边每天都能接触到的领域。而游戏中使用AI也是一件非常有趣的事情。 为此,我们也做了一些有趣的尝试,比如用它来玩斗地主。 首先是样本的准备,一部分样本是...

    高扬 2017-05-23
    68 0 0 0
  • 数据科学:以信息为载体的精确体系

    数据科学:以信息为载体的精确体系

    管理员账号 2017-05-25

    小编说:数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。数据科学作为科学,首先应该满足科学的基本定义。在此基础上,数据科学兼具数据本身的一些特性。本文内容整理自《数据科学家养成手册》认知篇 数据科学是一个巨大而抽象的...

    管理员账号 2017-05-25
    42 0 0 0
  • 游戏AI小试牛刀(2)

    游戏AI小试牛刀(2)

    高扬 2017-06-05

    上次我们说到用深度学习来做斗地主游戏AI的一个实验项目,这次我们来说说技术实现层面的一些问题。 对于这样一个应用场景来说,我们是可以把它当做类似于图片分类的场景去做的。玩家的手牌、牌池里的牌、上下家打出的牌,这些都可以向量化成为用...

    高扬 2017-06-05
    55 1 0 0
  • 九章算术

    九章算术

    高扬 2017-06-12

    本文节选自即将由电子工业出版社出版的《数据科学家养成手册》第三章 中国最早的数学专著是《周髀算经》——原名《周髀》,是算经十书之一。它们是汉、唐一千多年间来民间数学研究方面的专业著作,也曾经一度作为隋唐时代国子监算学科的教科书。 ...

    高扬 2017-06-12
    51 0 0 0
  • 数据科学家节选(1)

    数据科学家节选(1)

    高扬 2017-06-19

    【节选自即将由电子工业出版社出版的《数据科学家养成手册》第一章】 什么是科学家 从我们每个人上学前班的时候,我们就开始受到各种各样的启蒙教育,哪怕是捏橡皮泥、跳皮筋、玩弹球这些最最普通最最不起眼的游艺项目,都是我们在锻炼协调性和认识...

    高扬 2017-06-19
    20 0 0 0
  • 数据科学家节选(2)

    数据科学家节选(2)

    高扬 2017-06-26

    【节选自即将由电子工业出版社出版的《数据科学家养成手册》第二章】 科学之科   在中国古汉语体系中多为单字词,所以大家想想也能猜得出“科学”一词其实并非中国所发明。   的确,“科学”是个舶来的词汇。“科学”一词由明治维新时期日本...

    高扬 2017-06-26
    22 0 0 0
  • 讲书3分钟丨《数据科学家养成手册》-讲书人 高扬

    讲书3分钟丨《数据科学家养成手册》-讲书人 高扬

    王一 2017-08-02

    只需3分钟就能快速了解一本书! 由作(译)者发声讲书,直指新书的特点与主旨。 只需利用碎片化时间,省时省力选到适合自己的好书! 音频链接 http://www.ximalaya.com/78614528/sound/4585...

    王一 2017-08-02
    27 0 0 0