本书是介绍如何用Python 进行数据处理和分析的学习实战指南。主要内容包括Python语言基础、数据处理、数据分析、数据可视化图形的制作,以及利用Python对数据库的的贝叶斯操作、利用深度学习技术对模型进行优化等内容。
本书主要分为3部分:第1部分包括第1章主要讲解Python的基础知识,第2部分包括第2~6章为实战案例,第3部分包括第7~8章主要讲解利用深度学习和协同过滤技术对大数据分析进行为拓展与延伸。
本书内容丰富,讲解通俗易懂,适合本科生、研究生,以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。
大数据分析、人工智能、深度学习,实战型图书、上手即用
随着大数据、人工智能技术的发展,从天气预报到垃圾分类,从“12345”市民服务热线工单自动转办、热点问题挖掘到短视频推荐,越来越多的领域在使用大数据和人工智能技术。本书用多个实际案例来帮助读者掌握数据分析和人工智能技术的方法。相关案例遵循先进行数据可视化,在直观地观察数据分布之后,再介绍难度更大的机器学习、深度学习等数据处理方法,实现对数据的预测、分类、聚类、降维等目标。读者不理解相关的数学原理也没有关系,可以先将程序调试通过,再进行更深入的学习。在找问题、看代码的过程中掌握相关算法的原理及Python编程的技巧,这也是一种高效的学习方法。
本书中的各章相互独立,在安装好必要的依赖库之后程序可以单独运行,读者可以选择自己感兴趣的章节进行学习。但各章节的难度逐步提升,因此,建议读者按照顺序学习。本书尽可能用简单的案例介绍相应的数学原理,将模型简化,方便读者理解。而对更复杂的数学原理,如最小二乘、梯度下降、反向传播等,本书均一笔带过,想要了解算法细节的读者可以自行查阅相关资料。
? 关于编程环境。本书所有的程序均使用Anaconda下的Spyder和Jupyter Notebook调试,计算机的操作系统为Windows 10,选择的是Python 3.8.5。大部分依赖库可以通过在Anaconda Prompt中输入“pip install 库名”的方式完成,但仍有部分依赖库无法直接使用该语句完成安装,如决策树的可视化、深度学习库Keras等。此时需要读者发现问题,并一个一个地解决。相信随着学习的深入,看似困难的问题都能迎刃而解。
? 关于数据。本书中的源数据大都直接或间接地来自网络,由笔者下载并整理后保存于本地,涉及数值数据、文本数据、图像数据等多种数据格式。其仅用于案例使用,是为了让读者学到相应的技能和使用方法。如果读者使用其他类似的数据,也不会影响书中案例结果的呈现,本书只是讲解通用的学习方法而非提供某一段数据,敬请知悉。
? 关于示例代码路径:本书中的示例代码,在数据读取、数据保存等涉及路径的语句中,均省略了笔者计算机的具体路径,读者在参考、调试代码的过程中,需要改为自己的计算机的路径。
由于Python版本及各个依赖库的更新,书中难免存在不足之处,敬请广大读者批评指正。本书相应的数据资源均可在QQ群内获取。