KNIME视觉化数据分析
  • 推荐0
  • 收藏0
  • 浏览134

KNIME视觉化数据分析

雒玉玺 等 (作者)  石 倩 (责任编辑)

  • 书  号:978-7-121-44955-0
  • 出版日期:2023-03-01
  • 页  数:292
  • 开  本:16(240*190)
  • 出版状态:上市销售
  • 维护人:石倩
本书与读者一同探讨和思考数据分析的基本概念、需求、方案等问题,并以 KNIME 为工具,展示数据分析的具体流程。
本书对 KNIME 中的众多节点进行了介绍,对各节点的难度和重要性进行了标记,以便新手更快地学习,对节点的覆盖性说明和一些高级内容,会让读者更深入地了解和使用KNIME。
对所有日常有数据分析需求的读者来说,本书能帮助其轻松应对大部分常见的数据分析问题,是一本不可多得的 KNIME 使用参考书。

KNIME无需编码,即可构建分析工作流,好用快捷的数据分析建模助手
雒玉玺,即“指北君”,拥有十多年数据分析经验的专家,专注于最新的数据分析、机器学习和人工智能技术,在金融、制造、零售、医疗保健、生命科学等行业有丰富的实践经验。全面掌握数据分析相关技术,具有高效的分析能力,提供数据方面的咨询和培训服务。此外,独立运营公众号 "数据分析指北",欢迎关注互动。
在2017年的一天,我看到了一份研究报告,在那份报告中,从各个层面详细地对比了各种商业的、开源的数据分析工具。就在那一天,我遇到了KNIME。
在此之前,我使用过很多数据分析工具,无论是低抽象级别的C/C++、Python、R,还是高抽象级别的MATLAB、Maple、Mathematica,抑或是专攻某一方向的SPSS、Lingo、Orange、Weka、Excel,甚至一些云服务商的工具。
我当时的工作除了开发程序,还涉及一些数据分析工作,主要是通过Python来构建特征并进行分析。数据分析主要是一个探索性的工作,需要我们做出假设和推理,再用数据去验证假设,这也就决定了分析过程并没有一个严格的路径,需要很多试错(trial and error)过程。
当初步调研KNIME之后,我尝试用它来将我之前的工作复现,发现之前用Python断断续续做了半个月的工作,居然一个下午就完全实现了。当然,实现过程这么快除了有KNIME适合这项任务的原因,也有我对之前所做工作的理解变深的原因。总之,我被震撼到了。在此之后,如果一项任务适合用KNIME做,那我就会毫不犹豫地使用它。
KNIME AP(在书中会详细介绍整个KNIME生态环境)是一款开源的、免费的工具,在持续的使用过程中,我积累了一些经验,更重要的是,在进行数据分析的过程中,它为我节省了相当多的时间,带给我很多因为数据分析所获得的洞见。本着“人人为我,我为人人”的精神,我想,我也应该为这款开源工具做一些什么了。于是,我陆陆续续写了一些相关的数据分析文章,发布在“数据分析指北”公众号上,获得了不少正面反馈,甚至有一些朋友,专门加了我的个人微信,只为表达他们的感谢。在思索良久之后,我决定系统地写一写KNIME的使用和数据分析,于是有了这本书。
本书是目前(截至2022年10月)市面上唯一一本系统性地介绍KNIME数据分析的中文教程。其中包含公众号“数据分析指北”的一些内容(做了大量修订,且出版社老师为了提高可读性做了不少文字方面的修改),包含对KNIME大部分节点完整的覆盖性介绍,相信读者在了解之后,会对节点的使用游刃有余。另外,书中还有一些高阶内容,比如流变量、循环、分支、错误处理、可视化、模块化、Java、Python节点、测试、时间序列分析、深度学习,甚至KNIME扩展开发等,能让读者更深入地了解和使用KNIME。
按照当今的流行术语来说,KNIME是一款通用型的低代码(low code)数据分析软件,也就是说,它的主要操作方式通过“拖拉曳”就能完成。
本书适合所有日常有数据分析需求的读者,能帮助其轻松应对大部分常见的数据分析问题。
写作本书的过程是一个非常艰辛的过程,其中的工作量就像是写了四、五篇完整的毕业论文。在整个写作过程中,zz出生,zz妈及岳父、岳母承担了很多原本应该由我承担的责任;母亲病重去世,父亲也承担了很多原本应该由我承担的责任。我感到无比愧疚和自责。
之前我对zz妈说,这本书献给我生命中两个重要的女人,一个是我的母亲,另一个是她。我希望这本书能带给你(读者)和我新的一天。在此之后,你我的任何一天都会和以前不一样。
感谢电子工业出版社石倩老师在本书出版过程中给予我的帮助,包括但不限于负责整个出版流程、各种琐事,以及对文字的悉心修正。还有一些我叫不出名字的背后的工作人员,正是因为有你们认真负责的工作,这本书才有幸出现在读者手中。
本书主要内容由我完成,杜晓刚编写了本书的高级内容——深度学习、时间序列分析、机器学习相关内容的撰写,温景阳编写了本书的进阶内容。
本书获得了国家自然科学基金项目(61861024)和甘肃省自然科学基金(20JR5RA404)资助。在此一并表示感谢。

雒玉玺(指北君)

目录

第1章 数据分析方法论 1
1.1 基本要求与基础概念 1
1.1.1 目标读者 1
1.1.2 楔子 2
1.1.3 厘清谁是数据的所有者 2
1.1.4 成为科学家还是工程师 3
1.2 方法论 4
1.2.1 你的问题是什么 4
1.2.2 问题的解空间 5
1.2.3 科学方法 6
1.2.4 “然后呢” 7
1.2.5 CRISP-DM数据挖掘的跨行业标准流程 9
1.3 后续内容 10
第2章 KNIME使用基础 12
2.1 权衡数据分析的需求与解决方案 12
2.1.1 制定实施方案 12
2.1.2 案例:一次关于工具选型的聊天 15
2.2 KNIME简介、生态圈和资源 18
2.2.1 KNIME简介 18
2.2.2 当我们提到KNIME时,具体是指什么 20
2.2.3 KNIME 的相关资源 21
2.3 安装KNIME及其扩展 22
2.3.1 安装KNIME分析平台 22
2.3.2 启动KNIME 24
2.3.3 安装KNIME扩展 25
2.3.4 卸载KNIME扩展 26
2.4 KNIME的使用 26
2.4.1 关于KNIME界面 26
2.4.2 KNIME使用简介 29
2.4.3 导入和导出现有工作流 30
2.4.4 例子服务器及Hub的使用 31
2.5 遇到问题怎么办 34
第3章 KNIME数据分析基础 36
3.1 数据来源及轮廓 36
3.1.1 了解原始数据来源 36
3.1.2 了解轮廓,进行探索性分析 36
3.1.3 一个好例子 37
3.1.4 房价例子 38
3.2 计算机如何处理表格数据 39
3.2.1 基础数据操作 39
3.2.2 展示示例数据 39
3.2.3 具体的小问题 39
3.3 基础操作之读取数据源 41
3.3.1 读取文件 41
3.3.2 读取数据库 43
3.3.3 导入之前的数据 43
3.4 基础操作之挑选(select)操作 44
3.4.1 了解完备概念 44
3.4.2 你会几种编程语言 45
3.4.3 回顾之前的问题 45
3.4.4 SQL中的挑选操作 46
3.4.5 KNIME中的挑选操作 47
3.5 基础操作之CASE、group by和join 49
3.5.1 条件操作、缺失值和排序 50
3.5.2 分组操作——group by 51
3.5.3 子查询——subquery 51
3.5.4 连接操作——join 52
3.5.5 使用KNIME完成之前的问题 52
3.6 了解KNIME中的重要概念 56
3.6.1 了解路径 56
3.6.2 了解节点基础 59
第4章 KNIME基础节点——数据访问类型 64
4.1 IO节点集合 65
4.1.1 Read(读)目录下的节点 66
4.1.2 File Folder Utility(文件、文件夹工具)目录下的节点 68
4.1.3 Other(其他)目录下的节点 69
4.1.4 文件处理节点的补充说明 70
4.2 DB节点集合 70
4.2.1 Connection(连接)目录下的节点 71
4.2.2 获取数据的两种模式 73
4.2.3 Query(查询)目录下的节点 75
4.2.4 Read/Write(读/写)目录下的节点 77
4.2.5 Utility(工具)目录下的节点 78
4.3 JSON、XML类型 78
4.3.1 JSON格式介绍与解析 79
4.3.2 XML格式介绍与解析 83
4.3.3 JSON与XML的相应节点 84
4.4 Web相关节点 85
4.5 NoSQL相关节点 85
4.6 网络数据访问 86
4.6.1 网络数据简要说明 86
4.6.2 使用GET/POST Request 节点 89
4.6.3 其他 91
第5章 KNIME基础节点——转换类型 92
5.1 Column(列)处理节点集合 93
5.1.1 Binning(分桶)目录下的节点 93
5.1.2 Convert & Replace(转换 & 替换)目录下的节点 96
5.1.3 Filter(过滤)目录下的节点 101
5.1.4 Split & Combine(分割与组合)目录下的节点 101
5.1.5 Transform(转换)目录下的节点 103
5.1.6 其他的列处理节点 106
5.2 Row(行)处理节点集合 107
5.2.1 Filter(过滤)目录下的节点 107
5.2.2 Transform(转换)目录下的节点 110
5.2.3 GroupBy(分组聚合)节点 112
5.2.4 Pivoting(转轴或透视)节点 116
5.2.5 其他行处理节点 119
5.3 Table(表)处理节点集合 121
5.4 PMML节点集合 121
5.5 时间数据类型相关操作 124
第6章 KNIME基础节点——分析和数据挖掘类型 128
6.1 机器学习简述 128
6.1.1 监督学习和非监督学习 128
6.1.2 基本概念和约定 129
6.1.3 模型选择、超参优化及错误分析 132
6.2 Analytics节点集合 133
6.2.1 学习器(Learner)和预测器(Predictor) 134
6.2.2 Feature Selection(特征选择)节点 135
6.2.3 Scoring(记分)目录下的节点 136
6.2.4 Statistics(统计)类节点 136
6.2.5 Distance Calculation(距离计算)类节点 137
6.3 探索性数据分析(EDA)练习 137
6.3.1 泰坦尼克号 137
6.3.2 数据探索 138
6.3.3 对原始数据进行粗略观察 138
6.3.4 进一步观察数据 143
6.4 简单的机器学习练习——使用KNIME中的决策树算法 147
第7章 进阶话题——流变量与控制循环结构 152
7.1 流变量从入门到精通 152
7.1.1 了解流变量 152
7.1.2 生成流变量 153
7.1.3 使用流变量 156
7.1.4 流变量的操作 160
7.1.5 流变量的特别使用方式 164
7.2 循环(Loop)结构 164
7.2.1 两种Loop End(循环结束)节点 166
7.2.2 递归循环 168
7.2.3 循环的调试 170
7.2.4 和流变量有关的循环 171
7.2.5 其他循环 172
7.3 分支(Switches)结构 175
7.3.1 IF Switch节点 176
7.3.2 Java IF(Table)节点 177
7.3.3 CASE Switch类节点 177
7.3.4 Empty Table Switch(空表切换)节点 178
7.3.5 其他说明 179
7.4 错误处理 179
7.4.1 Try…Catch结构 179
7.4.2 举例:循环中的Try ... Catch结构 183
7.4.3 其他 184
第8章 进阶话题——数据可视化、模块化与编程节点 185
8.1 数据可视化 185
8.1.1 数据可视化简介 185
8.1.2 KNIME中的可视化节点简介 188
8.1.3 以折线图(Line Plot)为例介绍可视化相关节点 189
8.1.4 其他可视化图表 195
8.1.5 通用可视化节点——Generic JavaScript View 195
8.2 模块化 197
8.2.1 KNIME 模块化简史 198
8.2.2 元节点(Metanode) 199
8.2.3 组件(Component) 201
8.2.4 其他建议 207
8.3 生成报告 208
8.4 Java相关节点 213
8.4.1 Java Snippet(simple)节点 213
8.4.2 Java Snippet Row Filter(Java行过滤器)节点 216
8.4.3 Java Snippet节点 217
8.5 Python相关节点 221
8.5.1 Python环境配置 222
8.5.2 KNIME中的Python 226
8.5.3 Python相关节点介绍 229
8.5.4 与Jupyter交互 231
8.5.5 Conda的常用命令 234
第9章 高级话题 235
9.1 可复现性与测试 235
9.2 深度学习介绍 238
9.2.1 基于Keras的深度学习 239
9.2.2 基于TensorFlow 2的深度学习 242
9.2.3 使用现有模型进行预测 244
9.2.4 使用深度学习的其他方式 246
9.3 时间序列分析介绍 247
9.3.1 想要预测什么 247
9.3.2 时间图(Time Plot) 249
9.3.3 季节图(Seasonal Plot) 249
9.3.4 季节性子图(Seasonal Subseries Plot) 251
9.3.5 箱形图(Box Plot) 252
9.3.6 散点图(Scatter Plot) 253
9.3.7 滞后图(Lag Plot) 254
9.3.8 自相关图(Auto Correlation Plot)与偏自相关图(Partial autocorrelation
function Plot) 255
9.3.9 时间序列的组成 257
9.3.10 时间序列的预处理 258
9.3.11 趋势(Trend)成分 260
9.3.12 季节性(Seasonal)成分 261
9.3.13 周期性(Cyclic)成分 263
9.3.14 经典的统计学方法 263
9.4 扩展开发介绍 264
9.5 (机器学习的)集成部署(Integrated Deployment) 271
9.5.1 概述 271
9.5.2 使用举例 272
9.6 KNIME Server、Executor与Edge简介 276
9.6.1 架构简介 276
9.6.2 功能简介 278

读者评论

下载资源

图书类别

相关图书

SQL面试宝典:图解数据库求职题(全彩)

孟丽娟 (作者)

第1章 介绍SQL能力在职场发展的重要性和面试相关工作的技巧第2章 介绍面试需要掌握哪些SQL知识第3-第6章 详细介绍每个知识点,和相关的面试题。第7章SQL...

 

Power Query数据清理从入门到精通

陈平 (作者)

《Power Query实战:Excel智能化数据清洗神器应用精讲》从Power Query的M语言的基础语法讲起,从清洗各种类型数据逐步深入到实现与外部AI功...

 

印象笔记留给你的空间――Evernote伴你成长(第2版)

李参 (作者)

以印象笔记工具为载体,实现个人效率效能管理、个人知识管理及个人管理系统建立。内容较第一版相比,扩充到8章,组合逻辑上有所改变,保留第一版后3章任务管理、个人信息...

 

趣玩Python:自动化办公真简单(双色+视频版)

本书以数据收集→数据清洗→数据分析→数据可视化→根据数据可视化结果(即图表)做决策为脉络,介绍Python在实际工作场景中的应用,侧重于用Python解决工作中...

 

万亿级流量转发:BFE核心技术与实现

章淼 (作者)

本书围绕BFE 开源项目,介绍网络前端接入和网络负载均衡的相关技术原理,说明BFE开源软件的设计思想和实现机制,讲解如何基于BFE开源软件搭建网络接入平台。<b...

¥89.00

Excel VBA程序开发自学宝典(第4版)

罗刚君 (作者)

《Excel VBA 程序开发自学宝典(第 4 版)》是 VBA 入门与提高的经典教材。全书包含基础知识部分和高级应用部分。其中,基础知识部分包含 VBA 的基...

¥119.00