作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人,初级和中级程序员、架构师及希望通过对数据的感知改进工作的人,产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人,以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。
数据科学是当今社会越来越重视的一个分支学科,在我们生活和生产中的方方面面渗透越来越深,也同时扮演者更为重要的角色。现在市面上的书籍大多是针对一个具体学科分支,还没有一本书从人类认知归纳开始进行系统化地做数据科学的总结,也没有一本书是做数据科学家素质总结的。这本书正好填补这一类选题的空白。
高扬,北京邮电大学计算机专业毕业,重庆工商大学管理科学与工程专业硕士研究生事业导师。10年以上IT行业工作经验,3年海外工作经验。2010年后一直专注于数据库、大数据、数据挖掘、机器学习、人工智能等相关领域的研究。曾在金山软件西山居任大数据架构师,负责大数据平台构架与搭建。现任欢聚时代资深大数据专家,负责大数据、深度学习等基础技术与理论研究和实际产品的结合。
为什么要写这本书
随着计算机科学和数据科学的发展,越来越多的人开始把目光投向其中最为耀眼的互联网、物联网、大数据、人工智能等高新技术领域,并且有相当多的高级技术人才已经在这些领域获得了令人瞩目的成就。
在追逐信息技术发展浪潮的过程中,数据科学成为人们在信息技术海洋中遨游所沉淀下来的理论与科学基础。我们都渴望通过对数据科学的理解来对生产工作进行指导和改善,这种工作的意义与其他各种在信息技术产业一线工作所创造价值的意义一样非比寻常。它给我们更广的辩证思考的空间,更高的观察事物的眼界,更多的自新的维度与动力。它是那么神秘且有趣。
数据科学到今天已经渗透到我们每个人的工作和生活之中。在你早上起来赶公车或者地铁的时候,你其实正在享受由数据科学辅助进行的精确调度服务;在你阅读工作报表的时候,你其实正在享受由数据科学辅助进行的大数据统计服务;在你吃午餐的时候,你其实正在享受由数据科学辅助进行的外卖快餐数据分发或食堂菜品改良服务;当你晚上回到家,在网上尽情购物的时候,你其实正在享受由数据科学辅助进行的高效电子商务和智能推荐服务。驾车出行有智能导航,就医问药有分诊机器人……也许你的家人或者朋友现在就在自己的工作岗位上,作为一名普通的销售人员、产品经理、人力资源师、售后服务人员、商务代表等,通过数据决策系统、数据库甚至电子表格来观察数据,做出判断,开展工作。数据科学给我们带来的红利已经紧紧把我们包围。
这本书绝无说教的想法,而是希望以书为媒,用谈天说地的方式,以激发每个人的思考为主要手段,归纳总结数据科学的实质及成就一位数据科学家所需要的基本素养。
遗憾的是,越是基础性、本源性的学科,与变成现实利益的距离也就越远,让人觉得似乎不够实惠,不够亲近。至少读完这本书没办法帮你直接在第二天变出米饭、房子和汽车。不过我认为,楼房再高再漂亮,也需要人们看不到的深厚地基来支持;花儿再芬芳再娇艳,也需要在土壤之下吮吸养分的丰富根系来供能。这些看不到的东西,往往起着我们无法想象的巨大作用,而这才是我希望与你一同讨论并思考的。
我们热爱生活,我们热爱所做的工作,我们希望在不断的攀登中看到更深更远的世界并去伪存真。那就让我们在点点滴滴的知识片段中一起开始慢慢思索、细细揣摩这一养成过程吧。
本书特色
本书从众多先贤及科学家的轶事开始讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,将这本书变成一本具有一定思维升华价值的参考书,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。
本书并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
简洁与深刻并重是本书的另一大特点。作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以最为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。
读者对象
(1)大数据从业人员和对大数据相关知识感兴趣的人。
(2)初级和中级程序员、架构师,以及希望通过对数据的感知改进工作的人。
(3)产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人。
(4)希望在思维方式领域进行拓展的高校毕业生和希望接触并了解数据科学的社会人员。
(5)所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人。
如何阅读本书
本书分为3篇,分别是认知篇、分化篇和实践篇。
认知篇(第1章~第7章)
归纳了什么是科学,数据科学的范围、定义与实践价值,以及辩证思维、哲学和实验的关系等问题。这些是认知观点的基石。
分化篇(第8章~第11章)
重点介绍了数据科学中与现代社会各行业联系最为紧密的统计学、信息论、算法学,另外把混沌论作为一个知识点进行了补充。这些是认知观点在不同细分学科中所形成的一些具体解决问题的思维方式和科学观点。
实践篇(第12章~第18章)
沿着数据生命周期进行演进。任何行业的数据生命周期都是按照采集、存储、统计与建模、算法、可视化与分析、决策支持的沿革来进行的,本篇对各个环节的注意事项和思维方式都做了详细的讨论,并在第18章介绍了两个具体的数据分析案例。
在本书的最后,补充了过去与同行们讨论过的,并在会议演讲及日常分享的过程中总结出来的一些精彩问答。
如果你希望读完这本书后能够在数学方面有很大的提升,在工程代码能力方面有巨大的进步,这本书恐怕帮不上什么大忙。但我相信,在读完这本书后,你会在一些以前并不熟知的领域有所了解和感悟,并逐步完善理解和分析问题的视角。如果你不是数据研究人员,也可以把这本书当成一个休闲读本。这本书里既没有太多的公式,也没有太过高深的理论,有的只是我在和你攀谈的过程中与你一起发现的新视角。
特别致谢
感谢绘麟社相辉先生和李晓林女士对本书的插画助力。
参加本书编写工作的有高扬、卫峥、左妍、尹会生、杨艺、陈钢、肖力。
勘误和支持
由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果您有更多的宝贵意见,欢迎扫描本页的二维码,关注“奇点大数据”微信公众号与我们进行互动讨论。本书后续的代码上传及勘误等相关更新内容都会在这个微信公众号发布。关注大数据尖端技术发展,关注奇点大数据。
同时,您也可以通过邮箱77232517@qq.com与我联系,期待能够得到您的真挚反馈,在技术之路上互勉共进。
高 扬
2017年1月于珠海