本书基于Python语言,结合实际的数据集,介绍如何使用机器学习与深度学习算法,对数据进行实战分析。本书在内容上循序渐进,先介绍了Python的基础内容,以及如何利用Python中的第三方库对数据进行预处理和探索可视化的相关操作,然后结合实际数据集,分章节介绍了机器学习与深度学习的相关算法应用。
本书为读者提供了源程序和使用的数据集,方便读者在阅读时同步运行程序,在增强学习效果的同时为读者节省了编写程序的时间。源程序使用Notebook的形式进行组织,每个小节注释清晰,讲解透彻。同时为程序配备了相应的视频讲解,辅助读者对程序能很好地理解和消化。本书在简明扼要地介绍算法原理的同时,更加注重实战应用和对结果的解读。
人工智能的浪潮正在席卷全球,机器学习是人工智能领域最能体现智能的一个分支。随着计算
机性能的提升,机器学习在各个领域中大放光彩。尤其是自从2016 年AlphaGo 战胜人类围棋顶尖
高手后,机器学习、深度学习“一夜爆红”,遍布互联网的各个角落,成为民众茶余饭后讨论最多
的话题。不过很多人可能苦于不知如何下手,又或者考虑到算法中的数学知识,从而产生了放弃学
习的念头。因此本书剔除了枯燥乏味的数学原理及其推导过程,用浅显易懂的代码去实现这些经典
和主流的算法,并在实际的场景中对算法进行应用。
Python 语言是全球最热的编程语言,其最大的优点就是自由、开源。随着Python 的不断发展,
其已经在机器学习和深度学习领域受到了众多学者和企业的关注。本书在简要介绍机器学习理论知
识的同时,重点研究如何使用Python 语言来建模分析实际场景中的数据,增强读者的动手能力,
促进读者对理论知识的深刻理解。
本书共分为12 章,前4 章介绍了Python 的使用与基于Python 机器学习的预备知识,后8
章则分模块介绍了统计分析、机器学习与深度学习的主流算法和经典应用。本书尽可能做到内容全
面、循序渐进,案例经典实用,而且代码通过Jupyter Notebook 来完成,清晰易懂,方便操作,
即使没有Python 基础知识的读者也能看懂本书的内容。
通过阅读第1 章~第4 章,你将会学到如下内容。
第1 章:Python 机器学习入门。先介绍机器学习相关知识,然后介绍如何安装Anaconda 用
于Python 程序的运行,接着介绍Python 相关的基础知识,快速入门Python 编程,最后介绍
NumPy、pandas 与Matplotlib 等第三方Python 库的使用。
第2 章:数据探索与可视化。将介绍如何使用Python 对数据集的缺失值、异常值等进行预处
理,以及如何使用丰富的可视化图像,展示数据之间的潜在关系,增强对数据的全面认识。
第3 章:特征工程。利用Python 结合实际数据集,介绍如何对数据进行特征变换、特征构建、
特征选择、特征提取与降维,以及对类别不平衡数据进行数据平衡的方法。
第4 章:模型选择和评估。该章主要介绍如何更好地训练数据,防止模型过拟合,以及针对不
同类型的机器学习任务,如何评价模型的性能。
∣Python 机器学习算法与实战∣
IV
通过阅读第5 章~第12 章,你将会学到如下内容。
第5 章:假设检验和回归分析。该章主要介绍统计分析的相关内容,如t 检验、方差分析、多
元回归分析、Ridge 回归分析、LASSO 回归分析以及Logistic 回归分析等内容。
第6 章:时间序列分析。该章将会介绍如何对时间序列这一类特殊的数据进行建模和预测,结
合实际数据集,对比不同类型的预测算法的预测效果。
第7 章:聚类算法与异常值检测。该章主要介绍机器学习中的数据聚类和异常值检测两种无监
督学习任务内容。其中聚类算法将介绍K-均值聚类、K-中值聚类、层次聚类、密度聚类等经典的
聚类算法;异常值检测算法将介绍LOF、COF、SOD 等经典的无监督检测算法。
第8 章:决策树和集成学习。该章主要介绍几种基于树的机器学习算法,如决策树、随机森林、
AdaBoost、梯度提升树等模型在数据分类与回归中的应用。
第9 章:贝叶斯算法和K-近邻算法。该章将介绍如何利用贝叶斯模型进行文本分类及如何构建
贝叶斯网络,同时还会介绍K-近邻算法在数据分类和回归上的应用。
第10 章:支持向量机和人工神经网络。该章主要介绍支持向量机与全连接神经网络在数据分类
和回归上的应用。
第11 章:关联规则与文本挖掘。该章主要结合具体的数据集,介绍如何利用Python 进行关联
规则分析及对文本数据的分析与挖掘。
第12 章:深度学习入门。该章主要依托PyTorch 深度学习框架,介绍相关的深度学习入门知
识,如通过卷积神经网络进行图像分类、通过循环神经网络进行文本分类及通过自编码网络进行图
像重建等实战案例。
本书在编写时尽可能地使用了目前最新的Python 库,但是随着计算机技术的迅速发展,以及
作者水平有限,编写时间仓促,书中难免存在疏漏,敬请读者不吝赐教,也欢迎加入QQ 群一起交
流。