数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面
  • 推荐0
  • 收藏4
  • 浏览2.4K

数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面

王国平 (作者) 

  • 书  号: 978-7-121-32702-5
  • 出版日期:2017-11-01
  • 页  数:348
  • 开  本:16(185*235)
  • 出版状态:上市销售
  • 维护人:黄爱萍
电子书 ¥39.00
购买电子书
纸质版 ¥69.00
当前,经典的数据挖掘算法日趋成熟,相关标准和技术已经在各行各业得到广泛应用。为了使数据挖掘技术满足不同层次用户的需要,可视化数据挖掘技术被提出,通过可视化的手段将数据挖掘过程的各个阶段展示给用户,使用户能更好地理解过程,目前该技术已经成为数据挖掘领域的研究热点。
本书旨在介绍最新的可视化数据挖掘技术,是作者多年工作经验的总结。内容基于Tableau 10.3和IBM SPSS Modeler 18.0编写,详细介绍了Tableau的数据连接、图形编辑、创建地图、表计算和聚合计算等功能,以及IBM SPSS Modeler的数据连接、CRISP-DM(跨行业数据挖掘标准流程)等功能。通过实际案例,重点介绍了可视化数据挖掘技术在电信、电力、医药、银行、电商和房地产等行业中的应用,可以作为互联网、银行证券、电商等行业的从业者,以及高等院校相关专业学生参考使用。
解放程序员的双手,让数据挖掘更轻松。
王国平,主要从事大数据分析与研究工作,研究领域为数据可视化和数据挖掘技术,致力于可视化数据挖掘技术在国内各行业的应用与推广,现已出版《Tableau数据可视化从入门到精通》和《IBM SPSS Modeler数据与文本挖掘实战》两本专著。
前 言

大数据时代正在改变着我们的生活、工作和思维,要让大数据发挥出最大价值,最重要的手段就是进行数据可视化挖掘。利用可视化数据挖掘工具和技术,分析人员能够从全新的角度快速、轻松地挖掘信息。可视化数据挖掘使数据挖掘变得更简单,建模过程不需要编写代码,非技术出身的业务人员等也可以利用数据做出决策。
本书基于Tableau 10.3和IBM SPSS Modeler 18.0编写,详细介绍Tableau数据连接、图形编辑、创建地图、表计算和聚合计算等,以及IBM SPSS Modeler的数据连接、CRISP-DM(跨行业数据挖掘标准流程)等。书中通过6个实际案例,重点介绍可视化数据挖掘技术在电信、电力、医药、银行、电商和房地产行业中的应用。
本书的内容
第1章介绍数据可视化和可视化数据挖掘的基本理论及主要软件,前者包括Tableau、QlikView和Power BI,后者包括IBM SPSS Modeler、Intelligent Miner和SAS Enterprise Miner。
第2章介绍Tableau Desktop 10.3软件简介、数据类型、运算符及优先级、软件的安装与激活和Tableau的文件类型等。
第3章介绍Tableau Desktop可以连接的数据源,包括Excel文件、文本文件、Access文件、JSON文件、PDF文件、空间文件和统计文件等,还介绍了如何连接各类数据库,如Tableau Server、SQL Server、MySQL和Oracle等。
第4章首先介绍Tableau Desktop的维度和度量、连续和离散的概念和操作,然后介绍工作区和工作表的基础操作,最后详细介绍表计算、创建字段、创建参数和聚合计算等高级操作。
第5章介绍如何使用Tableau生成一些统计图形,如条形图、饼图、直方图、折线图、散点图、并排图、甘特图等。
第6章介绍IBM SPSS Modeler的发展历史、软件特点、软件算法、软件功能、安装过程和授权许可等。
第7章介绍使用IBM SPSS Modeler进行数据挖掘的6个基本步骤:业务理解、数据理解、数据准备、建立模型、评估模型和应用模型。
第8章介绍IBM SPSS Modeler的基本操作,包括连接到文件和连接到数据库,前者包括Excel文件、SAS文件、SPSS Statistics文件、变量文件和固定文件等,后者包括Oracle、SQL Server、DB2、MySQL等数据库。
第9章介绍IBM SPSS Modeler的数据流操作,包括生成数据流、添加和删除节点、连接数据流、修改连接节点和执行数据流等。
第10章介绍可视化数据挖掘在电信行业中的应用,根据客户流失数据,运用Logistic回归算法,建立了基于客户属性、服务属性和客户消费信息的客户流失预警模型。
第11章介绍可视化数据挖掘在电力行业中的应用,由于用电负荷具有季节性和周期性的特点,因此运用时间序列模型,同时选择时间序列中的专家建模器进行建模。
第12章介绍可视化数据挖掘在医药行业中的应用,根据患者的用药数据,应用K-Means聚类算法,建立基于药物在人体的类胆固醇TC、Na、Ka等因素的药物效果聚类模型。
第13章介绍可视化数据挖掘在银行业中的应用,根据银行客户的登记记录数据,运用判别分析算法,建立基于客户的属性数据、信用等级和资产状况等因素的客户类型判别模型。
第14章介绍可视化数据挖掘在电商行业中的应用,根据促销的费用、促销前的销售额和促销后的销售额等数据,运用神经网络模型,建立基于促销费用、促销前的销售额和促销后的销售额等因素的促销效果评价模型。
第15章介绍可视化数据挖掘在房地产行业中的应用,根据购房者的个人信息数据等,运用CHAID决策树算法,建立基于年龄、性别、学历、月薪和家庭人数等因素的购房决策树模型。
本书的特色
(1)内容全面,讲解详细
本书是一本实践性的可视化数据挖掘著作,详细介绍了常用软件,对于初次学习可视化数据挖掘的读者来说帮助较大,书中列出了每一步操作,便于读者实践。
(2)由浅入深、循序渐进
本书从Tableau和IBM SPSS Modeler的简介、连接数据源、基础操作到高级操作进行讲解,逐步深入,从易到难,由浅入深,循序渐进,适合可视化数据挖掘各个层次的读者阅读。
(3)案例丰富,高效学习
本书在介绍数据可视化和数据挖掘软件后,为了使读者快速提高数据分析的整体能力,结合6个实际案例对可视化数据挖掘的流程及步骤进行了详细和全面的介绍。
本书的读者对象
本书的内容和案例适用于互联网、银行证券、电商、医药等行业数据分析用户进行可视化数据挖掘,可供高等院校相关专业学生及从事可视化数据挖掘的研究人员参考使用,也可作为Tableau和IBM SPSS Modeler软件培训和自学的教材。
本书提供相关案例的配套资料,可扫描本页的二维码登录后下载。
由于编者水平所限,书中难免存在错误和不妥之处,请广大读者批评指正。


编 者
2017年7月

目录





目 录



第1部分 数据可视化篇
第1章 可视化数据挖掘概述 2
1.1 数据可视化 2
1.1.1 Tableau 3
1.1.2 QlikView 5
1.1.3 Power BI 5
1.2 可视化数据挖掘 6
1.2.1 IBM SPSS Modeler 6
1.2.2 Intelligent Miner 7
1.2.3 SAS Enterprise Miner 9
第2章 Tableau Desktop简介 11
2.1 软件页面简介 11
2.1.1 开始页面 12
2.1.2 数据源页面 13
2.1.3 工作簿页面 15
2.2 数据类型 15
2.2.1 主要数据类型 15
2.2.2 更改数据类型 16
2.3 运算符及优先级 18
2.3.1 算术运算符 18
2.3.2 逻辑运算符 18
2.3.3 比较运算符 19
2.3.4 运算符优先级 19
2.4 软件安装 20
2.4.1 软件下载 20
2.4.2 安装步骤 21
2.4.3 软件激活 23
2.5 文件类型 26
第3章 连接数据源 27
3.1 连接到文件 27
3.1.1 Excel文件 27
3.1.2 文本文件 29
3.1.3 Access 30
3.1.4 JSON文件 32
3.1.5 PDF文件 34
3.1.6 空间文件 35
3.1.7 统计文件 36
3.1.8 其他文件 38
3.2 连接到数据库 38
3.2.1 Tableau Server 38
3.2.2 SQL Server 39
3.2.3 MySQL 40
3.2.4 Oracle 41
3.2.5 Amazon Redshift 42
3.2.6 更多数据库 43
第4章 Tableau主要操作 47
4.1 维度和度量 47
4.1.1 维度 47
4.1.2 度量 49
4.2 连续和离散 50
4.2.1 连续字段 50
4.2.2 离散字段 51
4.3 工作区操作 52
4.3.1 “数据”窗格 53
4.3.2 “分析”窗格 54
4.3.3 工具栏 54
4.3.4 状态栏 55
4.3.5 卡和功能区 56
4.4 工作表操作 58
4.4.1 创建工作表 58
4.4.2 复制工作表 59
4.4.3 导出工作表 59
4.4.4 删除工作表 60
4.5 Tableau高级操作 61
4.5.1 表计算 61
4.5.2 创建字段 63
4.5.3 创建参数 65
4.5.4 聚合计算 71
4.5.5 缺失值处理 74
第5章 创建图表 76
5.1 单变量图形 76
5.1.1 条形图 76
5.1.2 饼图 79
5.1.3 直方图 80
5.1.4 折线图 81
5.2 多变量图形 84
5.2.1 散点图 84
5.2.2 甘特图 85
第2部分 可视化数据挖掘篇
第6章 SPSS Modeler简介 88
6.1 软件简介 88
6.1.1 软件历史 88
6.1.2 软件界面 90
6.1.3 软件特点 96
6.2 算法及功能 97
6.2.1 软件算法 97
6.2.2 软件功能 99
6.3 软件安装及启动 101
6.3.1 软件安装 101
6.3.2 授权许可 104
6.3.3 启动软件 107
第7章 数据挖掘流程 110
7.1 业务理解 110
7.2 数据理解 111
7.3 数据准备 112
7.4 建立模型 113
7.5 评估模型 114
7.6 应用模型 114
第8章 SPSS Modeler导入数据源 116
8.1 连接到文件 116
8.1.1 Excel文件 117
8.1.2 变量文件 117
8.1.3 固定文件 119
8.1.4 SAS文件 120
8.1.5 Statistics文件 121
8.2 连接到数据库 121
第9章 SPSS Modeler基础操作 125
9.1 数据流操作 125
9.1.1 生成数据流 125
9.1.2 添加和删除节点 125
9.1.3 连接数据流 126
9.1.4 修改连接节点 127
9.1.5 执行数据流 128
9.2 图形制作 128
9.2.1 散点图 129
9.2.2 直方图 131
9.2.3 网络图 132
9.2.4 评估图 132
第3部分 案例实战篇
第10章 电信行业中的应用 136
10.1 建模思路 137
10.2 Logistic回归 138
10.3 业务理解 139
10.4 数据理解 140
10.5 数据准备 142
10.6 建立模型 143
10.6.1 模型参数设置 143
10.6.2 模型运行结果 154
10.7 模型评估 157
10.7.1 模型精确度 157
10.7.2 模型拟合度 158
10.8 模型应用 158
10.9 小结 161
第11章 电力行业中的应用 162
11.1 建模思路 163
11.2 时间序列模型 163
11.3 业务理解 165
11.4 数据理解 166
11.5 数据准备 167
11.6 建立模型 168
11.6.1 模型参数设置 168
11.6.2 模型运行结果 184
11.7 模型评估 186
11.8 模型应用 187
11.9 小结 188
第12章 医药行业中的应用 189
12.1 建模思路 189
12.2 聚类模型 190
12.3 业务理解 192
12.4 数据理解 193
12.5 数据准备 195
12.6 建立模型 196
12.6.1 模型参数设置 196
12.6.2 模型运行结果 199
12.7 模型评估 202
12.8 模型应用 204
12.9 小结 206
第13章 银行业中的应用 207
13.1 建模思路 208
13.2 判别分析 208
13.3 业务理解 210
13.4 数据理解 211
13.5 数据准备 213
13.6 建立模型 214
13.6.1 模型参数设置 214
13.6.2 模型运行结果 221
13.7 模型评估 226
13.8 模型应用 226
13.9 小结 229
第14章 电商中的应用 230
14.1 建模思路 231
14.2 神经网络模型 232
14.2.1 神经元 234
14.2.2 多层感知器 235
14.2.3 径向基函数 237
14.3 业务理解 238
14.4 数据理解 239
14.5 数据准备 241
14.6 建立模型 243
14.6.1 模型参数设置 243
14.6.2 模型运行结果 251
14.7 模型评估 254
14.8 模型应用 255
14.9 小结 257
第15章 房地产业中的应用 258
15.1 建模思路 258
15.2 决策树模型 259
15.3 业务理解 261
15.4 数据理解 261
15.5 数据准备 263
15.6 建立模型 266
15.6.1 模型参数设置 266
15.6.2 模型运行结果 276
15.7 模型评估 277
15.7.1 模型精确度 277
15.7.2 模型拟合度 278
15.8 模型应用 279
15.9 小结 281
附录A 配置MySQL ODBC数据源 282
附录B Tableau重要函数 285
附录C SPSS Modeler函数 313

读者评论

  • 一般,虽然跨界了tableau和spss modeler,但相结合的内容还是以spss modeler为主。优势是最后的附录,将官网的整理在一起,方便查阅。

    sirgo发表于 2018/9/7 8:38:58

电子书版本

  • Epub

相关图书

Python统计可视化之Altair探索分析实践指南

刘大成 (作者)

本书以Altair为核心工具,通过认识数据、理解数据和探索数据全方位地探索分析数据集的统计可视化形式,以应用数据和案例研究为实践场景,使用Altair数据加工箱...

 

实用推荐系统

Kim Falk (作者) 李源 朱罡罡 温睿 (译者)

要构建一个实用的“智能”推荐系统,不仅需要有好的算法,还需要了解接收推荐的用户。本书分为两部分,第一部分侧重于基础架构,主要介绍推荐系统的工作原理,展示如何创建...

¥119.00

Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)

龚正 吴治辉 闫健勇 (作者)

Kubernetes是由谷歌开源的容器集群管理系统,为容器化应用提供了资源调度、部署运行、服务发现、扩缩容等一整套功能。Kubernetes也是将“一切以服务(...

 

Harbor权威指南

张海宁 邹佳 王岩 尹文开 任茂盛 等 (作者)

在云原生生态中,容器镜像和其他云原生制品的管理与分发是至关重要的一环。本书对开源云原生制品仓库Harbor展开全面讲解,由Harbor开源项目维护者和贡献者倾力...

 

集成学习:基础与算法

Zhi-Hua Zhou (作者) 李楠 (译者)

集成学习方法是一类先进的机器学习方法,这类方法训练多个学习器并将它们结合起来解决一个问题,在实践中获得了巨大成功。<br>全书分为三部分。第一部分主要介绍集成学...

¥89.00

Kubernetes源码剖析

郑东旭 (作者)

本书主要分析了Kubernetes核心功能的实现原理,是一本帮助读者了解Kubernetes架构设计及内部原理实现的书。由于Kubernetes代码量较大,源码...