Python绝技:运用Python成为顶级数据工程师
  • 推荐1
  • 收藏0
  • 浏览163

Python绝技:运用Python成为顶级数据工程师

黄文青 (作者) 

  • 书  号:978-7-121-33654-6
  • 出版日期:2018-05-28
  • 页  数:212
  • 开  本:16(170*240)
  • 出版状态:上市销售
纸质版 ¥79.00
仅仅会Python编程是不够的。想成为一名优秀的数据分析工程师,还需要有全方位、透彻理解问题本质的能力,善于把实际的工作任务拆解成准确的数据问题,并运用相关的知识来解决。
本书恰好是从这个角度出发的,它条分缕析地帮助你认识任务的本质,教你从数据的角度来思考、拆解任务,并最终顺利地达成目标。
助你跨越从Python编程到工程应用的鸿沟,成为顶级数据分析师!
前言
数据分析、数据挖掘、深度学习及云计算,是当前最热门的技术领域。1830年前后,Gauss、Legendre 等数学家奠基了数据分析的基础理论;1943 年,心理学家Warren McCulloch 和数理逻辑学家Walter Pitts 首次提出神经网络;19 世纪80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷积神经网络;2006 年,深度置信网络研究成果发表。至此,数据建模理论研究的宏观大厦已初见雏形。
历史是如此的巧合,正当需要海量数据集和工程技术方案来处理数据时,云计算应运而生。2003 年,谷歌发表关于Google File System、Google Bigtable 及MapReduce 三篇论文,让大数据处理技术风靡全球。以此为基础,2010 年前后,整个云计算的概念及技术体系已经非常完善了。
数据理论的完善、工程技术的发展与无数创意的结合,使得2010 年以后,整个人类社会进入了“数据时代”。无论是精细化运营,还是人工智能产品,对数据的应用无处不在;无论是政府机构,还是私有的大、中、小型企业,使用数据的热情都达到空前的高度。
2014 年,我加入百度公司,从事大数据处理及数据建模等相关工作。回首过往,在该领域的几年中,我经历了云计算从雾里看花到如今的方兴未艾;人工智能的初现端倪到如今的高潮迭起。作为一名前线的数据工程师, 我深刻认识到,对我及大多数工程师而言,既无法像Jeff Dean 等一样提出经典的大数据计算模型;也无法像Hinton、Yann LeCun 一样提出具有深远影响的建模算法。我们所要做的,就是学习与汲取当前的理论与技术,结合应用领域,实现工程应用。这也是我写本书的初衷,希望能从宏观框架上梳理已有的数据分析理论与工程实施技术,并搭建相对系统的知识体系;同时,阐述工作实践中遇到的问题及解决的思路。
Python 简洁易懂的语法、丰富的类库、与大数据组件的无缝集成等诸多特点,使其成为数据工程师的首选编程语言。当然,只是掌握Python 还完全不足以成为顶级数据工程师,因此,本书介绍数据处理知识体系,并以Python 实现相关代码示例,力求让读者能使用Python 完成数据处理的各个环节。
本书的第1 章和第2 章,简要说明了数据处理领域的基本概念,旨在让读者对数据处理工作有宏观的了解。第3 章~第5 章,主要讲述数据分析理论。笔者按照难易程度,将其划分成三个部分,即基础分析、数据挖掘和深度学习。第6章针对大数据分析,介绍了在工程实施过程中需要用到的工程组件和架构模式,并以一个具体的案例说明整个数据工程的实施流程。
本书适合以下读者阅读:① 对人工智能和云计算感兴趣的读者;② 刚进入数据处理领域的IT 工程师;③ 希望从宏观上梳理数据处理知识体系的读者;④ 用Excel、SPSS、Python 做过数据分析的数据分析师;⑤ 应用过HDFS、Kafka等大数据组件的IT 工程师。
本书能够完稿,得益于外界诸多的帮助与指导。感谢数据领域的先驱者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他们的著作是数据时代最重要的理论依据;感谢在百度工作中遇到杨振宇、李华青、王珉然、陈合等许多优秀的同事和领导,在和他们一起试错、交流的过程中,让我取得巨大的进步;感谢本书的编辑刘皎,在她不厌其烦地督促下,本书才从凌乱的只言片语中编辑成书;特别感谢女友孙万兴,在本书的撰写过程中给予的谅解与支持。

目录

1 概述 / 1
1.1 何为数据工程师 / 1
1.2 数据分析的流程 / 3
1.3 数据分析的工具 / 11
1.4 大数据的思与辨 / 14
2 关于Python / 17
2.1 为什么是Python / 17
2.2 常用基础库 / 19
2.2.1 Numpy / 19
2.2.2 Pandas / 26
2.2.3 Scipy / 37
2.2.4 Matplotlib / 38
3 基础分析 / 43
3.1 场景分析与建模策略 / 43
3.1.1 统计量 / 43
3.1.2 概率分布 / 48
3.2 实例讲解 / 55
3.2.1 谁的成绩更优秀 / 55
3.2.2 应该库存多少水果 / 57
4 数据挖掘 / 60
4.1 场景分析与建模策略 / 60
4.1.1 分类 / 61
4.1.2 聚类 / 76
4.1.3 回归 / 86
4.1.4 关联规则 / 90
4.2 数据挖掘的重要概念 / 93
4.2.1 数据预处理 / 93
4.2.2 评估与验证 /97
4.2.3 Bagging 与Adaboost / 99
4.2.4 梯度下降与牛顿法 / 102
4.3 实例讲解 /105
4.3.1 信用卡欺诈监测 / 105
4.3.2 员工离职预判 /110
5 深度学习/ 114
5.1 场景分析与建模策略 / 115
5.1.1 感知机 / 115
5.1.2 自编码器 / 119
5.1.3 限制玻尔兹曼机 /123
5.1.4 深度信念神经网络 / 127
5.1.5 卷积神经网络 / 129
5.2 人工智能应用概况 / 137
5.2.1 深度学习的历史 /137
5.2.2 人工智能的杰作 / 140
5.3 实例讲解 / 146
5.3.1 学习识别手写数字 / 146
5.3.2 让机器认识一只猫 / 151
6 大数据分析 / 160
6.1 常用组件介绍 / 160
6.1.1 数据传输 / 165
6.1.3 数据计算 / 174
6.1.4 数据展示 / 180
6.2 大数据处理架构 / 188
6.2.1 Lambda 架构 / 189
6.2.2 Kappa 架构 / 192
6.2.3 ELK 架构 / 193
6.3 项目设计 / 194
参考文献 / 202

读者评论

  • P105页的信用卡案例有明显错误,估计是在复制代码时把后一个案例的代码重复复制了一次!另外,改正也无法运行,P107代码的第一句就无法运行!是因为我的系统python和库的版本不对,还是因为代码没有经过测试,需要作者确认一下!多谢!

    eriwjh发表于 2018/7/15 11:55:36

相关博文

推荐用户