Python大战机器学习:数据科学家的第一个小目标
  • 推荐0
  • 收藏5
  • 浏览3.0K

Python大战机器学习:数据科学家的第一个小目标

华校专 , 王正林 , 王正林 (作者) 

  • 丛  书:数据科学家成长之路
  • 书  号:978-7-121-30894-9
  • 出版日期:2017-03-06
  • 页  数:452
  • 开  本:16(185*260)
  • 出版状态:上市销售
  • 维护人:张月萍
数据科学家是当下炙手可热的职业,机器学习则是他们的必备技能,机器学习在大数据分析中居于核心的地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。
Python是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。
本书以快速上手、四分理论六分实践为出发点,讲述机器学习的算法和Python编程实践,采用“原理笔记精华+算法Python实现+问题实例+实际代码+运行调参”的形式展开,理论与实践结合,算法原理与编程实战并重。
全书共13 章分为4篇展开:第一篇:机器学习基础篇(第1~6 章),讲述机器学习的基础算法,包括线性模型、决策树、贝叶斯分类、k近邻法、数据降维、聚类和EM算法;第二篇:机器学习高级篇(第7~10章),讲述经典而常用的高级机器学习算法,包括支持向量机、人工神经网络、半监督学习和集成学习;第三篇:机器学习工程篇(第11~12章),讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等。第四篇:kaggle实战篇(第13章),讲述一个kaggle竞赛题目的实战。
本书内容丰富、深入浅出,算法与代码齐头并进,无论你是新手还是有经验的读者,都能快速学到你想要的。本书可供为高等院校计算机、金融、数学、自动化及相关理工科专业的本科生或研究生使用,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
人生苦短,我用Python;算法偷懒,我看笔记学霸版
前言
拥抱大数据时代
“大家还没搞清PC 时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云在2013 年淘宝十周年晚会上的这句话,仿佛一下子拉开了大数据时代的序幕。
新的时代,需要新的技术,新的技术,需要新的人才。全球最著名的管理咨询公司麦肯锡预测“到2018 年,美国在‘深度分析’人才方面将面临14 万至19 万的人才缺口;在‘能
够分析数据帮助公司做出商业决策’方面将面临150 万的人才缺口”。清华大学计算机系教授武永卫2016 年5 月透露了一组数据:未来3~5 年,中国需要180 万数据人才,但目前只有约30 万人。
大数据时代,做大数据分析人员有了一个更“性感”的名字,叫做数据科学家(Data Scientist)。《哈佛商业评论》声称,21 世纪最富挑战的工作是数据科学家。时下最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。
数据科学家必备的技能中,机器学习和Python 应该是位列前五的两项。机器学习炙手可热,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用,关注度也越来越高。而Python 则是最in 的语言,“人生苦短,我用Python”?_?怎么用这本书?
机器学习既有算法又有实现,还是比较高深的,算法太难,啃不动,代码太浅,钻不下去。我们的目标是让您快速上手,在内容组织上我们是动了心思的,采用“原理笔记精华+算法Python 实现+ 问题实例+ 实际代码+ 运行调参”的形式,理论与实践交织着展开,算法原理与编程实战并重。
全书分13 章进行展开,分为机器学习基础篇、机器学习高级篇、机器学习工程篇和kaggle 实战篇。
1. 机器学习基础篇(第1 ~ 6 章)
包括线性模型、决策树、贝叶斯分类、k 近邻法、数据降维、聚类和EM 算法等内容。
这些基础算法非常经典,原理也相对简单,是入门的最佳选择,掌握这些算法,才能更好地理解后续的高级算法。非菜鸟可以直接忽略这部分。
2. 机器学习高级篇(第7 ~ 10 章)
包括支持向量机、人工神经网络、半监督学习和集成学习等内容。
这些高级算法是目前应用非常广泛,也是效果不错的算法,需要深入理解算法的原理、优劣势等特点以及应用场景,要能达到应用自如的程度。
3. 机器学习工程篇(第11 ~ 12 章)
讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等内容。数据清洗、数据预处理和模型评估选择在实际中非常重要,在整个工程项目的开发过程中通常占到一半以上的时间,这部分给出的一些步骤和方法是实践的精华,值得熟练掌握。
4. kaggle 实战篇(第13 章)
Step-by-step 讲述一个kaggle 竞赛题目的实战,有代码有分析。
Kaggle 是目前顶级的数据科学比赛平台,很多机器学习的牛人都在这里玩过,咱们可以学习牛人好的算法,也可以启发自己的思路。对于梦想成为牛人的您,还是去里面混混先:)万一拿了个好的名次呢,拿个一流公司的offer 还是很easy 的。
本书的代码全部开源,请自行去下载https://github.com/huaxz1986/git_book,也欢迎在这上面交流。
由于作者水平和经验有限,书中错漏之处在所难免,敬请读者指正,我们的电子邮箱是wa_2003@126.com。
作者
2017 年元旦于北京

目录

第一篇 机器学习基础篇1
第1 章 线性模型 2
1.1 概述2
1.2 算法笔记精华2
1.2.1 普通线性回归2
1.2.2 广义线性模型5
1.2.3 逻辑回归5
1.2.4 线性判别分析7
1.3 Python 实战10
1.3.1 线性回归模型11
1.3.2 线性回归模型的正则化12
1.3.3 逻辑回归22
1.3.4 线性判别分析26
第2 章 决策树 30
2.1 概述30
2.2 算法笔记精华30
2.2.1 决策树原理30
2.2.2 构建决策树的3 个步骤31
2.2.3 CART 算法37
2.2.4 连续值和缺失值的处理42
2.3 Python 实战43
2.3.1 回归决策树(DecisionTreeRegressor) 43
2.3.2 分类决策树(DecisionTreeClassifier) 49
2.3.3 决策图54
第3 章 贝叶斯分类器 55
3.1 概述55
3.2 算法笔记精华55
3.2.1 贝叶斯定理55
3.2.2 朴素贝叶斯法56
3.3 Python 实战59
3.3.1 高斯贝叶斯分类器(GaussianNB) 61
3.3.2 多项式贝叶斯分类器(MultinomialNB) 62
3.3.3 伯努利贝叶斯分类器(BernoulliNB) 65
3.3.4 递增式学习partial_fit 方法69
第4 章 k 近邻法 70
4.1 概述70
4.2 算法笔记精华70
4.2.1 kNN 三要素70
4.2.2 k 近邻算法72
4.2.3 kd 树73
4.3 Python 实践74
第5章 数据降维 83
5.1 概述83
5.2 算法笔记精华83
5.2.1 维度灾难与降维83
5.2.2 主成分分析(PCA) 84
5.2.3 SVD 降维91
5.2.4 核化线性(KPCA)降维91
5.2.5 流形学习降维93
5.2.6 多维缩放(MDS)降维93
5.2.7 等度量映射(Isomap)降维96
5.2.8 局部线性嵌入(LLE) 97
5.3 Python 实战99
5.4 小结118
第6章 聚类和EM 算法 119
6.1 概述119
6.2 算法笔记精华120
6.2.1 聚类的有效性指标120
6.2.2 距离度量122
6.2.3 原型聚类123
6.2.4 密度聚类126
6.2.5 层次聚类127
6.2.6 EM 算法128
6.2.7 实际中的聚类要求136
6.3 Python 实战137
6.3.1 K 均值聚类(KMeans) 138
6.3.2 密度聚类(DBSCAN) 143
6.3.3 层次聚类(AgglomerativeClustering) 146
6.3.4 混合高斯(GaussianMixture)模型149
6.4 小结153
第二篇 机器学习高级篇155
第7章 支持向量机 156
7.1 概述156
7.2 算法笔记精华157
7.2.1 线性可分支持向量机157
7.2.2 线性支持向量机162
7.2.3 非线性支持向量机166
7.2.4 支持向量回归167
7.2.5 SVM 的优缺点170
7.3 Python 实战170
7.3.1 线性分类SVM 171
7.3.2 非线性分类SVM 175
7.3.3 线性回归SVR 182
7.3.4 非线性回归SVR 186
第8章 人工神经网络 192
8.1 概述192
8.2 算法笔记精华192
8.2.1 感知机模型192
8.2.2 感知机学习算法194
8.2.3 神经网络197
8.3 Python 实战205
8.3.1 感知机学习算法的原始形式205
8.3.2 感知机学习算法的对偶形式209
8.3.3 学习率与收敛速度212
8.3.4 感知机与线性不可分数据集213
8.3.5 多层神经网络215
8.3.6 多层神经网络与线性不可分数据集216
8.3.7 多层神经网络的应用219
第9章 半监督学习 225
9.1 概述225
9.2 算法笔记精华226
9.2.1 生成式半监督学习方法226
9.2.2 图半监督学习228
9.3 Python 实战234
9.4 小结243
第10章 集成学习 244
10.1 概述244
10.2 算法笔记精华244
10.2.1 集成学习的原理及误差244
10.2.2 Boosting 算法246
10.2.3 AdaBoost 算法246
10.2.4 AdaBoost 与加法模型252
10.2.5 提升树253
10.2.6 Bagging 算法256
10.2.7 误差-分歧分解257
10.2.8 多样性增强259
10.3 Python 实战260
10.3.1 AdaBoost 261
10.3.2 Gradient Tree Boosting 272
10.3.3 Random Forest 288
10.4 小结298
第三篇 机器学习工程篇299
第11章 数据预处理 300
11.1 概述300
11.2 算法笔记精华300
11.2.1 去除唯一属性300
11.2.2 处理缺失值的三种方法301
11.2.3 常见的缺失值补全方法302
11.2.4 特征编码307
11.2.5 数据标准化、正则化308
11.2.6 特征选择310
11.2.7 稀疏表示和字典学习313
11.3 Python 实践316
11.3.1 二元化316
11.3.2 独热码317
11.3.3 标准化321
11.3.4 正则化325
11.3.5 过滤式特征选取326
11.3.6 包裹式特征选取330
11.3.7 嵌入式特征选取334
11.3.8 学习器流水线(Pipeline) 339
11.3.9 字典学习340
第12 章 模型评估、选择与验证 345
12.1 概述345
12.2 算法笔记精华346
12.2.1 损失函数和风险函数346
12.2.2 模型评估方法348
12.2.3 模型评估349
12.2.4 性能度量350
12.2.5 偏差方差分解356
12.3 Python 实践357
12.3.1 损失函数357
12.3.2 数据集切分359
12.3.3 性能度量370
12.3.4 参数优化387
第四篇 Kaggle 实战篇401
第13 章 Kaggle 牛刀小试 402
13.1 Kaggle 简介402
13.2 清洗数据403
13.2.1 加载数据403
13.2.2 合并数据406
13.2.3 拆分数据407
13.2.4 去除唯一值408
13.2.5 数据类型转换410
13.2.6 Data_Cleaner 类412
13.3 数据预处理415
13.3.1 独热码编码415
13.3.2 归一化处理419
13.3.3 Data_Preprocesser 类421
13.4 学习曲线和验证曲线424
13.4.1 程序说明424
13.4.2 运行结果430
13.5 参数优化433
13.6 小结435
全书符号 436

读者评论

相关博文

  • #重磅新书预告#大数据时代,做优秀的数据科学家

    Jessica瑾妞 2017-03-13

    “大家还没搞清 PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云在 2013年淘宝十周年晚会上的这句话,仿佛一下子拉开了大数据时代的序幕。新的时代,需要新的技术;新的技术,需要新的人才。 在这个大数据...

    Jessica瑾妞 2017-03-13
    612 0 0 0
  • 人工神经网络之Python 实战

    人工神经网络之Python 实战

    管理员账号 2017-03-24

    小编说:Python 是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。本文以人工神经网络的实战为例,证明需要深入理解算法的原理、优劣势等特点以及应用场景,以能达到应用自如的程度。本文选自《...

    管理员账号 2017-03-24
    396 0 0 0

同系列书

相关图书

第一本无人驾驶技术书

刘少山 唐洁 吴双 李力耘 (作者)

无人驾驶是一个复杂的系统,涉及的技术点种类多且跨度大,入门者常常不知从何入手。《第一本无人驾驶技术书》首先宏观地呈现了无人驾驶的整体技术架构,概述了无人驾驶中涉...

¥59.00

大数据时代的算法:机器学习、人工智能及其典型实例

刘凡平 张启玉 刘刚 (作者)

本书介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、...

¥49.00

树莓派机器人蓝图权威宝典

Richard Grimmett (作者) 刘端阳 (译者)

树莓派是当前世界上流行的开源硬件设备,而机器人近几年也真正进入普通大众的事业,将完整的小型PC和机器人结合是世界上最前沿的研究方向。本书是首次在树莓派和机器人结...

¥36.00

智能硬件安全

刘健皓 (作者)

本书主要分为三部分,第一部分总体介绍为什么研究智能硬件安全,以及智能硬件安全风险分析和研究框架。第二部分介绍智能硬件信息安全研究的思路和具体操作方法。第三部分介...

¥59.00

自己动手设计物联网

黄峰达 (作者)

物联网是一个跨领域的学科,涉及方方面面的知识,包括硬件、软件、网络、协议等,这些知识很难在一本书里详细展开。目前很多关于物联网的图书集中于射频、ZigBee、W...

¥39.00

小比特的三维打印历险记

杨晓哲 (作者)

这是一个关于小比特与三维打印的故事。这是一本带你走进三维打印世界的书。跟随主人公到一个神秘而又陌生的地方吧,那里虽然一无所有,但是等待着小比特与三维打印机一起去...

¥19.00