数据科学实战指南
  • 推荐0
  • 收藏8
  • 浏览1.5K

数据科学实战指南

TalkingData (作者) 

  • 书  号:978-7-121-35965-1
  • 出版日期:2019-04-01
  • 页  数:212
  • 开  本:32(130*185)
  • 出版状态:上市销售
  • 维护人:孙奇俏
本书共分为三部分:第一部分将介绍数据科学工作开始前的必要准备事项,涉及数据安全与数据治理等;第二部分将从人才、数据、工具三个维度指导决策者启动数据科学项目;第三部分将分享真实的数据科学实战案例,为数据行业从业者提供实践思路。
现在越来越多的企业开始利用数据科学来驱动业务,本书将依托TalkingData 在大数据领域的多年实践经验,从数据、人才、工具三个维度帮助企业数据团队完成端到端的数据科学项目部署。
本书的内容包括数据科学项目的基础概念、准备工作、团队人才及端到端的实战案例等,适合正面临数字化转型的企业决策者、数据团队负责人,以及从事数据科学工作的数据分析师、数据科学家、数据工程师等阅读。
TalkingData 成立于2011年,是国内第三方数据智能服务商,将人工智能技术引入海量数据的处理、加工流程中,开源了大规模机器学习算法库Fregata、UI组件库iView、地理信息可视化框架inMap等项目,收获了遍布全球的使用者和贡献者。
大约在2015 年,TalkingData 的数据科学部翻译了博思艾伦咨询公司(Booz Allen Hamilton)的The Field Guide to Data Science 作为内部参考资料,该资料立刻引发了全公司员工的关注,甚至有各行各业的客户前来询问是否有多余纸质资料可以送给他们学习。一时间,洛阳纸贵。
这份资料也在TalkingData 内部掀起了一股关于数据科学的讨论热潮。对于什么是数据科学、什么是数据科学家、什么是数据科学项目等关键问题,TalkingData 的内部知识管理系统Furion 上出现了一篇又一篇的讨论热帖。
随着智能移动设备、可穿戴设备的用户量不断增加,以及工业大数据呈指数级增长,数据行业迎来了越来越多的挑战,大数据、云计算、人工智能、区块链、机器学习等热词也不断出现。
数据科学作为一个早已存在于大数据领域但最近几年才被关注的概念,与数据分析学(datalogy)、数据智能(data
intelligence)有着密不可分的关系。数据科学就像大数据、人工智能的“灵魂”,看不见、摸不着,却常常在各种场合被提及。每个人似乎都在讨论数据科学,但对于这个概念的理解却各不相同。
例如,鄂维南院士认为,数据科学主要包括两个方面:用数据的方法研究科学,以及用科学的方法研究数据。前者要用到生物信息学、天体信息学、数字地球等领域的知识,后者则涉及统计学、机器学习、数据挖掘、数据库等领域的内容。这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能看清数据科学的全貌。
另一些学者认为,数据科学是一个包含多学科知识的领域,专注于从大量原始数据和结构化数据中找到切实可行的解
决方案。数据科学专家将借助包括计算机科学、预测分析、统计学和机器学习等不同领域的知识,通过对海量数据集进行解析,努力为尚未被意识到的问题提供解决方案。数据科学家的主要目标是找出潜在的问题和解决之道,而不必找到具体的答案。
作为一个新兴的学科,数据科学还很“年轻”,其边界和具体研究内容还难以用一个公认的定义来描述。但是在数据行
业中,数据科学已经成为数据业务的“灵魂”,是实现数据价值的关键。通过对实际业务的探索,业界甚至已经有了专门的数据科学团队、数据科学流程规范和数据科学工具,这个进度远远领先于数据科学的学术研究。
TalkingData 认为,数据科学是用来探索数据价值的,也是挖掘数据价值的核心手段。不同于其他业务,数据的价值不是一下子就能确定的,数据价值的挖掘依赖于不断假设、分析、验证、校准,是一个反复迭代的过程,数据科学具有一定的生命周期。
这个过程不仅要遵循科学的步骤,也要使用科学的工具,这样才能保证结果的信效度和普适性。数据科学的实现需要借助一个符合数据科学流程的技术平台,平台上的工具也得是专业的,这样才能找到数据最终的价值。常见的数据科学能力有数据科学探索、可交互的视觉化探索等,常见的数据科学工具有数据准备组件、可扩展的数据模型等。
可能并不是所有的企业都在经历需要透彻了解数据科学的阶段,也就是说,数据科学并不是万能灵药,因为企业处于数字化发展的不同阶段,所面临的数据问题是不一样的。在企业数字化发展的初期,数据能力需求集中在整理、吸收、归纳、分析等方面,较小的数据团队和简单的数据分析方法即可满足需求。但当企业积累了大量、多源、多维度的数据,并且需要挖掘数据的价值,形成新的数据产品时,数据科学就会变成企业的核心竞争力之一。
数据科学项目的实施需要技术支持,需要有明确的组织结构,更需要由特定的人来执行。一个典型的数据团队一般由数据工程师、数据科学家、数据分析师、数据产品经理组成。
由于不同数据团队所面对的工作对象不一样,项目生命周期不一样,沟通交流的范式和工作的产出也都很特别,所以数据团队需要专门的工作流程、专业的协作工具,当然最重要的是要遵循专门的考核标准。基于以上几点,本书试图从实践经验的角度出发,从概念定义开始,将数据科学领域所涉及的人才、项目流程、工具、产出,以及关键注意事项娓娓道来,并辅以案例详述,力图帮助那些从事数据科学工作的人,以及即将在企业中引入数据科学的决策者梳理思路、整合资源,带领他们通往业务成功的彼岸。
本书共分为三部分:第一部分将介绍数据科学工作开始前的必要准备事项,涉及数据安全与数据治理等;第二部分将从人才、数据、工具三个维度指导决策者启动数据科学项目;第三部分将分享真实的数据科学实战案例,为数据行业从业者提供实践思路。
本书在写作过程中,汇聚了TalkingData 的数据科学从业者们在实际工作中积累的行业经验,因此在这里要感谢为本书提供专业知识和宝贵意见的专家们:感谢负责数据科学概述部分的专家孔元明和戴民,感谢数据安全领域的专家吕博卿,感谢数据治理领域的专家李想,感谢数据科学工具领域的专家张学波,感谢数据可视化领域的专家彭嘉,感谢精通数据科学流程的专家潘松柏、曾晓春,感谢精通数据科学实战项目的专家李堃、王丽燕,感谢对全书进行审校的杨慧、谢若涵。
同时,本书在写作过程中也得到众多业内专家的指导。希望本书能够成为数据科学从业者及对数据科学感兴趣的人的
知识手册,能够随时帮助来自企业、科研界的人们统一思想,形成共识。
愿数据科学与所有人同在!

目录

第1 篇 数据科学项目之战壕篇 ............................. 1
第1 章 数据科学项目的概念 .................................................... 2
1.1 数据科学概述 ................................................................ 2
1.2 数据科学项目概述 ........................................................ 9
1.3 数据科学项目的生命周期 .......................................... 11
第2 章 数据科学项目的前提:大数据安全与个人隐私保护 .............................................................................. 24
2.1 大数据安全面临的挑战 .............................................. 25
2.2 数据安全法律法规 ...................................................... 26
2.3 搭建大数据安全体系 .................................................. 28
第3 章 数据治理 ...................................................................... 46
3.1 为什么需要进行数据治理 .......................................... 46
3.2 数据治理中的常见模块 .............................................. 49
3.3 数据治理的下游使用 .................................................. 52
第2 篇 数据科学项目之器械库 ............................ 67
第4 章 数据科学项目团队 ...................................................... 68
4.1 专业数据人才 .............................................................. 68
4.2 其他团队人才 .............................................................. 78
4.3 团队合作 ...................................................................... 79
第5 章 数据科学项目中的数据 .............................................. 83
5.1 数据的分类 .................................................................. 83
5.2 数据在各个行业中的应用 .......................................... 89
第6 章 数据科学项目的工具:数据科学平台 .................... 103
6.1 数据科学平台概述 .................................................... 103
6.2 为什么需要数据科学平台 ........................................ 105
6.3 数据科学平台中的基础概念 .................................... 106
6.4 数据科学平台的核心特性 ........................................ 112
6.5 数据科学平台的分类 ................................................ 119
6.6 数据科学平台使用指南 ............................................ 124
第3 篇 数据科学项目之实战篇 .......................... 131
第7 章 数据科学项目管理流程 ............................................ 132
7.1 诊断:数据科学项目的起步 .................................... 135
7.2 组织:数据科学项目的保障 .................................... 138
7.3 行动:数据科学项目的核心 .................................... 142
7.4 评估:数据科学项目的升华 .................................... 148
第8 章 数据科学项目实战案例 ............................................ 149
8.1 数据科学助力企业线上数字化转型案例 ................ 149
8.2 AI 智能模型平台助力产销预测案例 ....................... 175

读者评论

相关图书

Python统计可视化之Altair探索分析实践指南

刘大成 (作者)

本书以Altair为核心工具,通过认识数据、理解数据和探索数据全方位地探索分析数据集的统计可视化形式,以应用数据和案例研究为实践场景,使用Altair数据加工箱...

 

实用推荐系统

Kim Falk (作者) 李源 朱罡罡 温睿 (译者)

要构建一个实用的“智能”推荐系统,不仅需要有好的算法,还需要了解接收推荐的用户。本书分为两部分,第一部分侧重于基础架构,主要介绍推荐系统的工作原理,展示如何创建...

¥119.00

Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)

龚正 吴治辉 闫健勇 (作者)

Kubernetes是由谷歌开源的容器集群管理系统,为容器化应用提供了资源调度、部署运行、服务发现、扩缩容等一整套功能。Kubernetes也是将“一切以服务(...

 

Harbor权威指南

张海宁 邹佳 王岩 尹文开 任茂盛 等 (作者)

在云原生生态中,容器镜像和其他云原生制品的管理与分发是至关重要的一环。本书对开源云原生制品仓库Harbor展开全面讲解,由Harbor开源项目维护者和贡献者倾力...

 

集成学习:基础与算法

Zhi-Hua Zhou (作者) 李楠 (译者)

集成学习方法是一类先进的机器学习方法,这类方法训练多个学习器并将它们结合起来解决一个问题,在实践中获得了巨大成功。<br>全书分为三部分。第一部分主要介绍集成学...

¥89.00

Kubernetes源码剖析

郑东旭 (作者)

本书主要分析了Kubernetes核心功能的实现原理,是一本帮助读者了解Kubernetes架构设计及内部原理实现的书。由于Kubernetes代码量较大,源码...