Python大数据分析与应用实战-图书

推荐0
收藏3
浏览1.0K

Python大数据分析与应用实战

书　　号：978-7-121-42197-6
出版日期：2021-10-28
页　　数：356
开　　本：16(185*235)
出版状态：上市销售
维护人：刘伟

纸质版￥109.00

本书是介绍如何用Python 进行数据处理和分析的学习实战指南。主要内容包括Python语言基础、数据处理、数据分析、数据可视化图形的制作，以及利用Python对数据库的的贝叶斯操作、利用深度学习技术对模型进行优化等内容。
本书主要分为3部分：第1部分包括第1章主要讲解Python的基础知识，第2部分包括第2～6章为实战案例，第3部分包括第7～8章主要讲解利用深度学习和协同过滤技术对大数据分析进行为拓展与延伸。
本书内容丰富，讲解通俗易懂，适合本科生、研究生，以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。

大数据分析、人工智能、深度学习，实战型图书、上手即用

随着大数据、人工智能技术的发展，从天气预报到垃圾分类，从“12345”市民服务热线工单自动转办、热点问题挖掘到短视频推荐，越来越多的领域在使用大数据和人工智能技术。本书用多个实际案例来帮助读者掌握数据分析和人工智能技术的方法。相关案例遵循先进行数据可视化，在直观地观察数据分布之后，再介绍难度更大的机器学习、深度学习等数据处理方法，实现对数据的预测、分类、聚类、降维等目标。读者不理解相关的数学原理也没有关系，可以先将程序调试通过，再进行更深入的学习。在找问题、看代码的过程中掌握相关算法的原理及Python编程的技巧，这也是一种高效的学习方法。
本书中的各章相互独立，在安装好必要的依赖库之后程序可以单独运行，读者可以选择自己感兴趣的章节进行学习。但各章节的难度逐步提升，因此，建议读者按照顺序学习。本书尽可能用简单的案例介绍相应的数学原理，将模型简化，方便读者理解。而对更复杂的数学原理，如最小二乘、梯度下降、反向传播等，本书均一笔带过，想要了解算法细节的读者可以自行查阅相关资料。
? 关于编程环境。本书所有的程序均使用Anaconda下的Spyder和Jupyter Notebook调试，计算机的操作系统为Windows 10，选择的是Python 3.8.5。大部分依赖库可以通过在Anaconda Prompt中输入“pip install 库名”的方式完成，但仍有部分依赖库无法直接使用该语句完成安装，如决策树的可视化、深度学习库Keras等。此时需要读者发现问题，并一个一个地解决。相信随着学习的深入，看似困难的问题都能迎刃而解。
? 关于数据。本书中的源数据大都直接或间接地来自网络，由笔者下载并整理后保存于本地，涉及数值数据、文本数据、图像数据等多种数据格式。其仅用于案例使用，是为了让读者学到相应的技能和使用方法。如果读者使用其他类似的数据，也不会影响书中案例结果的呈现，本书只是讲解通用的学习方法而非提供某一段数据，敬请知悉。
? 关于示例代码路径：本书中的示例代码，在数据读取、数据保存等涉及路径的语句中，均省略了笔者计算机的具体路径，读者在参考、调试代码的过程中，需要改为自己的计算机的路径。
由于Python版本及各个依赖库的更新，书中难免存在不足之处，敬请广大读者批评指正。本书相应的数据资源均可在QQ群内获取。

第1章 Python语法基础 1
1.1 安装Anaconda 1
1.1.1 代码提示 4
1.1.2 变量浏览 5
1.1.3 安装第三方库 5
1.2 语法基础 6
1.2.1 字符串、列表、元组、字典和
集合 6
1.2.2 条件判断、循环和函数 13
1.2.3 异常 17
1.2.4 特殊函数 20
1.3 Python基础库应用入门 22
1.3.1 NumPy库应用入门 23
1.3.2 Pandas库应用入门 29
1.3.3 Matplotlib库应用入门 40
1.4 本章小结 45
第2章天气数据的获取与建模分析 52
2.1 准备工作 52
2.2 利用抓取方法获取天气数据 54
2.2.1 网页解析 54
2.2.2 抓取一个静态页面中的天气
数据 57
2.2.3 抓取历史天气数据 60
2.3 天气数据可视化 63
2.3.1 查看数据基本信息 63
2.3.2 变换数据格式 64
2.3.3 气温走势的折线图 66
2.3.4 历年气温对比图 67
2.3.5 天气情况的柱状图 69
2.3.6 使用Tableau制作天气情况的
气泡云图 70
2.3.7 风向占比的饼图 72
2.3.8 使用windrose库绘制风玫瑰图 73
2.4 机器学习在天气预报中的应用 76
2.4.1 线性回归的基本概念 76
2.4.2 使用一元线性回归预测气温 77
2.4.3 使用多元线性回归预测气温 84
2.5 本章小结 91
第3章养成游戏中人物的数据搭建 92
3.1 准备工作 92
3.2 利用Pyecharts库进行数据基本情况分析 94
3.2.1 感染人数分布图 94
3.2.2 病情分布图 96
3.2.3 病症情况堆叠图 97
3.2.4 绘制死亡、出院情况折线图 98
3.2.5 病情热力图 100
3.2.6 病情分布象形图 101
3.2.7 人口流动示意图 103

3.3 感染病例分析 105
3.3.1 基本信息统计 106
3.3.2 使用直方图展示感染周期 108
3.3.3 使用词云图展示死亡病例情况 111
3.4 疫情趋势预测 114
3.4.1 利用逻辑方程预测感染人数 115
3.4.2 利用SIR模型进行疫情预测 120
3.4.3 Logistic模型和SIR模型的
对比 128
3.5 本章小结 131
第4章航空数据分析 132
4.1 准备工作 132
4.2 基本情况统计分析 135
4.2.1 查看数据的基本信息 135
4.2.2 航空公司、机型分布 137
4.2.3 展示各个城市航班数量的3D
地图 139
4.2.4 从首都机场出发的桑基图 142
4.2.5 通过关系图展示航线 145
4.3 利用Floyd算法计算最短飞行时间 148
4.3.1 Floyd算法简介 148
4.3.2 Floyd算法的流程 150
4.3.3 算法程序实现 150
4.3.4 结果分析 154
4.4 本章小结 158
第5章市民服务热线文本数据分析 160
5.1 准备工作 160
5.2 基本情况分析 162
5.2.1 数据分布基本信息 162
5.2.2 每日平均工单量分析 165
5.2.3 来电时间分析 166
5.2.4 工单类型分析 167
5.3 利用词云图展示工单内容 171
5.3.1 工单分词 171
5.3.2 去除停用词 172
5.3.3 词频统计 173
5.3.4 市民反映问题词云图 175
5.3.5 保存数据 176
5.4 基于朴素贝叶斯的工单自动分类转办 177
5.4.1 需求概述 177
5.4.2 朴素贝叶斯模型的基本概念 177
5.4.3 朴素贝叶斯文本分类算法的
流程 181
5.4.4 程序实现 182
5.5 基于K-Means算法和PCA方法降维的
热点问题挖掘 189
5.5.1 应用场景 189
5.5.2 K-Means算法和PCA方法的
基本原理 189
5.5.3 热点问题挖掘算法的流程 193
5.5.4 程序实现 194
5.6 本章小结 205
第6章决策树信贷风险控制 206
6.1 准备工作 206
6.2 数据集基本情况分析 209
6.2.1 查看数据大小和缺失情况 209
6.2.2 绘制直方图查看数据的分布
情况 211
6.2.3 绘制直方图的3种方法 212
6.2.4 通过箱型图查看异常值的情况 213
6.2.5 异常值和缺失值的处理 217
6.2.6 使用小提琴图展示预处理后的
数据 218
6.3 利用决策树进行信贷数据建模 219
6.3.1 决策树原理简介 219
6.3.2 决策树信贷建模流程 225
6.3.3 利用scikit-learn库实现决策树
风险控制算法 226
6.3.4 模型优化 231
6.4 本章小结 233
第7章利用深度学习进行垃圾图片分类 234
7.1 准备工作 234
7.2 深度学习的基本原理 237
7.2.1 CNN的基本原理 237
7.2.2 Keras库简介 240
7.3 利用Keras库实现基于CNN的垃圾
图片分类 241
7.3.1 算法流程 241
7.3.2 数据预处理 241
7.3.3 CNN模型实现 247
7.4 优化CNN模型 252
7.4.1 选择优化器 252
7.4.2 选择损失函数 254
7.4.3 调整模型 256
7.4.4 图片增强 259
7.4.5 改变学习率 263
7.5 模型应用 265
7.6 本章小结 268

第8章协同过滤和矩阵分解推荐算法
分析 269
8.1 准备工作 269
8.2 基于协同过滤算法的短视频完播情况
分析 271
8.2.1 基于用户的协同过滤算法的
原理 271
8.2.2 算法流程 274
8.2.3 程序实现 275
8.3 基于矩阵分解算法的短视频完播情况
预测 283
8.3.1 算法原理 283
8.3.2 利用Surprise库实现SVD
算法 286
8.4 几种方法在测试数据集中的表现 289
8.5 本章小结 291
第9章《红楼梦》文本数据分析 292
9.1 准备工作 292
9.1.1 编程环境 292
9.1.2 数据情况简介 293
9.2 分词 294
9.2.1 读取数据 295
9.2.2 数据预处理 298
9.2.3 分词及去除停用词 306
9.2.4 制作词云图 307
9.3 文本聚类分析 316
9.3.1 构建分词TF-IDF矩阵 317
9.3.2 K-Means聚类 318
9.3.3 MDS降维 320
9.3.4 PCA降维 321
9.3.5 HC聚类 323
9.3.6 t -SNE高维数据可视化 325
9.4 LDA主题模型 326
9.5 人物社交网络分析 332
9.6 本章小结 338
附录A 抓取数据请求头查询 339
附录B GraphViz库的安装方法 341
附录C 在Windows 10中安装TensorFlow
的方法 343
参考文献 346
致射 348