本书共分为三部分:第一部分将介绍数据科学工作开始前的必要准备事项,涉及数据安全与数据治理等;第二部分将从人才、数据、工具三个维度指导决策者启动数据科学项目;第三部分将分享真实的数据科学实战案例,为数据行业从业者提供实践思路。
现在越来越多的企业开始利用数据科学来驱动业务,本书将依托TalkingData 在大数据领域的多年实践经验,从数据、人才、工具三个维度帮助企业数据团队完成端到端的数据科学项目部署。
本书的内容包括数据科学项目的基础概念、准备工作、团队人才及端到端的实战案例等,适合正面临数字化转型的企业决策者、数据团队负责人,以及从事数据科学工作的数据分析师、数据科学家、数据工程师等阅读。
TalkingData 成立于2011年,是国内第三方数据智能服务商,将人工智能技术引入海量数据的处理、加工流程中,开源了大规模机器学习算法库Fregata、UI组件库iView、地理信息可视化框架inMap等项目,收获了遍布全球的使用者和贡献者。
大约在2015 年,TalkingData 的数据科学部翻译了博思艾伦咨询公司(Booz Allen Hamilton)的The Field Guide to Data Science 作为内部参考资料,该资料立刻引发了全公司员工的关注,甚至有各行各业的客户前来询问是否有多余纸质资料可以送给他们学习。一时间,洛阳纸贵。
这份资料也在TalkingData 内部掀起了一股关于数据科学的讨论热潮。对于什么是数据科学、什么是数据科学家、什么是数据科学项目等关键问题,TalkingData 的内部知识管理系统Furion 上出现了一篇又一篇的讨论热帖。
随着智能移动设备、可穿戴设备的用户量不断增加,以及工业大数据呈指数级增长,数据行业迎来了越来越多的挑战,大数据、云计算、人工智能、区块链、机器学习等热词也不断出现。
数据科学作为一个早已存在于大数据领域但最近几年才被关注的概念,与数据分析学(datalogy)、数据智能(data
intelligence)有着密不可分的关系。数据科学就像大数据、人工智能的“灵魂”,看不见、摸不着,却常常在各种场合被提及。每个人似乎都在讨论数据科学,但对于这个概念的理解却各不相同。
例如,鄂维南院士认为,数据科学主要包括两个方面:用数据的方法研究科学,以及用科学的方法研究数据。前者要用到生物信息学、天体信息学、数字地球等领域的知识,后者则涉及统计学、机器学习、数据挖掘、数据库等领域的内容。这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能看清数据科学的全貌。
另一些学者认为,数据科学是一个包含多学科知识的领域,专注于从大量原始数据和结构化数据中找到切实可行的解
决方案。数据科学专家将借助包括计算机科学、预测分析、统计学和机器学习等不同领域的知识,通过对海量数据集进行解析,努力为尚未被意识到的问题提供解决方案。数据科学家的主要目标是找出潜在的问题和解决之道,而不必找到具体的答案。
作为一个新兴的学科,数据科学还很“年轻”,其边界和具体研究内容还难以用一个公认的定义来描述。但是在数据行
业中,数据科学已经成为数据业务的“灵魂”,是实现数据价值的关键。通过对实际业务的探索,业界甚至已经有了专门的数据科学团队、数据科学流程规范和数据科学工具,这个进度远远领先于数据科学的学术研究。
TalkingData 认为,数据科学是用来探索数据价值的,也是挖掘数据价值的核心手段。不同于其他业务,数据的价值不是一下子就能确定的,数据价值的挖掘依赖于不断假设、分析、验证、校准,是一个反复迭代的过程,数据科学具有一定的生命周期。
这个过程不仅要遵循科学的步骤,也要使用科学的工具,这样才能保证结果的信效度和普适性。数据科学的实现需要借助一个符合数据科学流程的技术平台,平台上的工具也得是专业的,这样才能找到数据最终的价值。常见的数据科学能力有数据科学探索、可交互的视觉化探索等,常见的数据科学工具有数据准备组件、可扩展的数据模型等。
可能并不是所有的企业都在经历需要透彻了解数据科学的阶段,也就是说,数据科学并不是万能灵药,因为企业处于数字化发展的不同阶段,所面临的数据问题是不一样的。在企业数字化发展的初期,数据能力需求集中在整理、吸收、归纳、分析等方面,较小的数据团队和简单的数据分析方法即可满足需求。但当企业积累了大量、多源、多维度的数据,并且需要挖掘数据的价值,形成新的数据产品时,数据科学就会变成企业的核心竞争力之一。
数据科学项目的实施需要技术支持,需要有明确的组织结构,更需要由特定的人来执行。一个典型的数据团队一般由数据工程师、数据科学家、数据分析师、数据产品经理组成。
由于不同数据团队所面对的工作对象不一样,项目生命周期不一样,沟通交流的范式和工作的产出也都很特别,所以数据团队需要专门的工作流程、专业的协作工具,当然最重要的是要遵循专门的考核标准。基于以上几点,本书试图从实践经验的角度出发,从概念定义开始,将数据科学领域所涉及的人才、项目流程、工具、产出,以及关键注意事项娓娓道来,并辅以案例详述,力图帮助那些从事数据科学工作的人,以及即将在企业中引入数据科学的决策者梳理思路、整合资源,带领他们通往业务成功的彼岸。
本书共分为三部分:第一部分将介绍数据科学工作开始前的必要准备事项,涉及数据安全与数据治理等;第二部分将从人才、数据、工具三个维度指导决策者启动数据科学项目;第三部分将分享真实的数据科学实战案例,为数据行业从业者提供实践思路。
本书在写作过程中,汇聚了TalkingData 的数据科学从业者们在实际工作中积累的行业经验,因此在这里要感谢为本书提供专业知识和宝贵意见的专家们:感谢负责数据科学概述部分的专家孔元明和戴民,感谢数据安全领域的专家吕博卿,感谢数据治理领域的专家李想,感谢数据科学工具领域的专家张学波,感谢数据可视化领域的专家彭嘉,感谢精通数据科学流程的专家潘松柏、曾晓春,感谢精通数据科学实战项目的专家李堃、王丽燕,感谢对全书进行审校的杨慧、谢若涵。
同时,本书在写作过程中也得到众多业内专家的指导。希望本书能够成为数据科学从业者及对数据科学感兴趣的人的
知识手册,能够随时帮助来自企业、科研界的人们统一思想,形成共识。
愿数据科学与所有人同在!