小白学数据挖掘与机器学习——SPSS Modeler案例篇
  • 推荐0
  • 收藏1
  • 浏览2.1K

小白学数据挖掘与机器学习——SPSS Modeler案例篇

张浩彬 (作者)  王静 (责任编辑)

  • 书  号:978-7-121-33843-4
  • 出版日期:2018-07-01
  • 页  数:232
  • 开  本:16(185*235)
  • 出版状态:图书立项
  • 维护人:王静
本书用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。

本书以 IBM SPSS Modeler 作为案例实践工具,首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了 IBM SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点,用通俗的语言介绍具体的算法理论,同时在每章最后都附上应用案例,让读者更轻松地阅读本书并掌握对应的算法和实践操作。

全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点,适合数据挖掘与机器学习入门读者阅读。
17位业内专家联合力荐,简单有趣、轻松掌握数据挖掘工具SPSS Modeler

张浩彬,数据分析/数据挖掘专家,目前任职于国际商业机器(中国)有限公司认知计算部门,曾张浩彬,人称浩彬老撕,曾任IBM大中华区商业智能事业部SPSS分析工程师,认知解决方案事业部数据分析专家,现任广东柯内特环境科技有限公司首席数据科学家,致力机器学习及SPSS技术分享,专注于人工智能技术与应用。
微信公众号:探数寻理(wetalkdata)
浩彬老撕(作者网名),一个有趣的人。
数据挖掘与机器学习,一件好玩的事情。
IBM SPSS Modeler,一套有用的工具。

在日常生活和工作中,笔者经常会遇到有朋友面带难色地咨询:怎么做数据挖掘?怎么学习数据挖掘?笔者发现,大家都认识到,在这个大数据时代,数据挖掘是一项非常有用的技能,但与此同时,他们往往又会觉得学习数据挖掘与机器学习非常难,因为必须要花费大量的时间去重新学习数学知识以及各种编程技能。

对于这些困难,笔者当然理解,而且,随着大数据的兴起,市面上也出现了越来越多关于数据挖掘与机器学习方面的书籍。这些书籍固然都写得很好,但是很多都是一上来就介绍统计理论和模型算法,未免又增加了初学者的畏难情绪。

就笔者看来,从海量数据中挖掘出有用的知识本来是一件很好玩的事情,而且看上去晦涩难懂的算法,其实也有接地气的一面,只要找对学习方法和案例,数据挖掘与机器学习也可以像听故事一样有趣。也是基于这一点,笔者开始了个人公众号以及本书的写作,希望可以用生活中一些常见的例子和一些有趣的插图及通俗的语言故事,把这些看上去晦涩的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,希望让读者从入门学习阶段就发现,原来数据挖掘与机器学习这件事情不但有用,而且还真的有趣。

本书采用 IBM SPSS Modeler(以下简称 SPSS Modeler)作为案例实践工具。 SPSS Modeler 是业界公认的数据挖掘利器,它依据 CRISP-DM 方法论,内置了丰富的数据挖掘算法,同时作为一款以“图形化语法”的数据挖掘工具,它的最大优点就是在保证专业性的同时,很好地兼顾了易用性,相信读者使用 SPSS Modeler 作为数据挖掘与机器学习入门工具,将能够很快掌握实际的应用技巧。

本书特色

本书从结构上看,首先介绍了数据挖掘的基本概念以及数据挖掘方法论,接下来介绍了SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点。

特别地,在每一章中都会以漫画形式介绍一些日常小例子作为切入点,并用通俗的语言为读者介绍具体的算法理论,同时在每章最后都附上应用案例,希望以这样的形式帮助读者更轻松地阅读本书并掌握对应的算法和实践操作。

致谢
感谢图标网站 http://www.easyicon.net/以及 http://pictogram2.com/提供的原始素材,本书的插图大部分来源于对这些原始素材的再创作。感谢公众号“探数寻理”的读者的关注与支持。感谢 IBM 大中华区分析事业部周伟珠等多位同事的帮助和建议,是你们的建议让本书变得更加完善。感谢柯内特环保大数据研究院院长龙力辉等多位书评作者,感谢你们能够在百忙之中抽出时间阅读书稿,并提出宝贵的建议。感谢电子工业出版社博文视点王静老师的大力支持和辛勤工作,让本书能够顺利出版。最后感谢我的家人和徐小白同学,也因为你们的支持和理解,本书才能顺利出版。


目录

第 1 章 数据挖掘那些事儿 \ 1
1.1 当我们在谈数据挖掘时,其实在讨论什么 \ 2
1.2 从 CRISP-DM 开启数据挖掘实践 \ 7

第 2 章 数据挖掘之利器:SPSS Modeler \ 17
2.1 SPSS Modeler 简介 \ 18
2.2 SPSS Modeler 的下载与安装 \ 21
2.3 SPSS Modeler 的主界面及基本操作 \ 23
2.3.1 SPSS Modeler 主界面介绍 \ 23
2.3.2 鼠标基本操作 \ 31
2.4 将 SPSS Modeler 连接到服务器端 \ 31

第 3 章 巧妇难为无米之炊:数据,数据! \ 34
3.1 数据的身份 \ 35
3.1.1 变量的测量级别 \ 35
3.1.2 变量的角色 \ 36
3.2 数据的读取 \ 37
3.2.1 读取 Excel 文件数据 \ 37
3.2.2 读取变量文件数据 \ 38
3.2.3 读取 SPSS Statistics(.sav)文件数据 \ 40
3.2.4 读取数据库数据 \ 42
3.3 数据的基本设定 \ 45
3.3.1 变量角色的设定 \ 45
3.3.2 字段的筛选及命名 \ 46
3.4 数据的集成 \ 47
3.4.1 数据的变量集成:合并节点 \ 47
3.4.2 数据的记录集成:追加节点 \ 50

第 4 章 一点都不简单的描述性统计分析 \ 53
4.1 分类变量的基本分析: “矩阵”节点 \ 54
4.2 连续变量的基本分析:数据审核节点 \ 57
4.2.1 连续变量基本分析指标介绍 \ 57
4.2.2 “数据审核”节点 \ 63

第 5 章 何为足够大的差异:常用的统计检验 \ 67
5.1 假设检验 \ 68
5.1.1 假设检验的基本原理 \ 68
5.1.2 假设检验的一般步骤 \ 69
5.2 连续变量与分类变量之间的关系: t 检验 \ 70
5.2.1 两组独立样本均值比较 \ 71
5.2.2 两组配对样本均值比较 \ 72
5.2.3 使用 t 检验的前提条件 \ 73
5.2.4 案例:使用均值比较分析电信客户的流失情况 \ 73
5.3 两个连续变量之间的关系:相关分析 \ 75
5.3.1 相关分析理论 \ 76
5.3.2 案例:使用相关分析研究居民消费水平与国内生产总值的相关关系 \ 77
5.4 两个分类变量之间的关系:卡方检验 \ 80
5.4.1 卡方检验的原理 \ 80
5.4.2 卡方检验的前提条件 \ 82
5.4.3 案例:使用卡方检验研究两个分类字段之间的关系 \ 82

第 6 章 从身高和体重的关系谈起:回归分析 \ 84
6.1 一元线性回归分析 \ 85
6.1.1 分析因变量与自变量的关系,构建回归模型 \ 85
6.1.2 估计模型系数,求解回归模型 \ 87
6.1.3 对模型系数进行检验,确认模型有效性 \ 88
6.1.4 拟合优度检验,判断模型解释能力 \ 89
6.1.5 借助回归模型进行预测 \ 90
6.2 多元线性回归分析 \ 90
6.2.1 估计模型系数,求解回归模型 \ 91
6.2.2 对模型参数进行检验,确认模型有效性 \ 92
6.2.3 拟合优度检验,判断模型解释能力 \ 94
6.2.4 模型的变量选择 \ 95
6.3 使用线性回归分析的注意事项 \ 97
6.4 案例:使用回归分析研究影响房屋价格的重要因素 \ 98

第 7 章 回归岂止这么简单:回归模型的进一步扩展 \ 102
7.1 曲线回归 \ 103
7.2 Logistic 回归 \ 110
7.2.1 Logistic 回归理论 \ 110
7.2.2 案例:使用 Logistic 回归模型分析个人收入水平影响因素 \ 112

第 8 章 模型评估那些事儿:过拟合与欠拟合 \ 117
8.1 过拟合与欠拟合 \ 118
8.2 留出法与交叉验证 \ 122
8.2.1 留出法与分层抽样 \ 122
8.2.2 交叉验证 \ 124

第 9 章 从看电影的思考到决策树的生成 \ 126
9.1 决策树概述 \ 127
9.2 决策树生成 \ 129
9.2.1 从 ID3 算法到 C5.0 算法 \ 131
9.2.2 CART 算法 \ 134
9.3 决策树的剪枝 \ 136
9.3.1 预剪枝策略 \ 137
9.3.2 后剪枝策略 \ 137
9.3.3 代价敏感学习 \ 138
9.4 案例:用决策树分析客户违约情况 \ 140
9.5 关于信息熵的扩展 \ 147

第 10 章 人工神经网络:从人脑神经元开始 \ 151
10.1 从人脑神经元到人工神经网络 \ 152
10.2 感知机 \ 154
10.3 人工神经网络 \ 159
10.3.1 隐藏层的作用 \ 159
10.3.2 人工神经网络算法 \ 160
10.4 案例:利用人工神经网络分析某电信运营商的客户流失情况 \ 164

第 11 章 物以类聚,人以群分:聚类分析 \ 172
11.1 聚类思想的概述 \ 173
11.2 聚类方法的关键:距离 \ 175
11.3 K-Means 算法 \ 176
11.3.1 K-Means 算法原理 \ 176
11.3.2 轮廓系数(Silhouette coefficient) \ 177
11.4 案例:利用 K-Means 算法对不同型号汽车的属性进行聚类分群研究 \ 179

第 12 章 啤酒+尿布=关联分析? \ 186
12.1 一个关于关联分析的传说 \ 187
12.2 关联分析的基本概念 \ 188
12.3 关联规则的有效性指标 \ 190
12.4 Apriori 算法 \ 192
12.4.1 生成频繁项集 \ 193
12.4.2 生成关联规则 \ 195
12.5 案例:利用 Apriori 算法对顾客的个人信息及购买记录进行关联分析 \ 195

第 13 章 三个臭皮匠,赛过诸葛亮:集成学习算法 \ 199
13.1 集成学习算法概述 \ 200
13.2 3 种不同的集成学习算法 \ 201
13.2.1 Bagging 算法 \ 201
13.2.2 Boosting 算法 \ 203
13.2.3 随机森林 \ 204
13.3 集成学习算法实践 \ 205
13.3.1 Bagging 算法和 Boosting 算法 \ 205
13.3.2 随机森林 \ 211
13.3.3 集成学习算法结果比较 \ 214

本书勘误

印次
  • 页码:9  •  行数:14  •  印次: 1

    还需要考虑把如何把商业问题转化为数学问题

    lj09009 提交于 2018/8/15 15:16:01
    王静 确认于 2018/8/20 11:07:55

读者评论

  • 没数据怎么学?

    tips123发表于 2019/12/13 15:05:16
  • 请问54页,矩阵节点在界面哪里?没找到。

    夏天过去了发表于 2019/8/27 10:42:12
  • 按书上“9.4 案例:用决策树分析客户违约情况”操作,p145结果显示的“预测变量重要性”图示坐标为英文,与教材不同,不知是何原因。

    stuoyf发表于 2019/8/9 16:40:20
  • 请分享一下数据集呗

    guoxycau发表于 2019/8/9 10:03:54
  • 案例数据集的百度云连接已失效,请再分享一下。谢谢!

    theodore11发表于 2019/6/3 10:12:59