本书以图文并茂的方式介绍了Python的基础内容,并深入浅出地介绍了数据分析和机器学习领域的相关入门知识。
第1章至第5章以极简方式讲解了Python的常用语法和使用技巧,包括数据类型与程序控制结构、自建Python模块与第三方模块、Python函数和面向对象程序设计等。第6章至第8章介绍了数据分析必备技能,如NumPy、Pandas和Matplotlib。第9章和第10章主要介绍了机器学习的基本概念和机器学习框架sklearn的基本用法。
对人工智能相关领域、数据科学相关领域的读者而言,本书是一本极简入门手册。对于从事人工智能产品研发的工程技术人员,本书亦有一定的参考价值。
零入门 | 高可读 | 重实战 !NumPy、Pandas、Matplolib、Seaborn、sklearn全面解读!提供入门数据科学领域的“极简必要知识”!
张玉宏,大数据分析师(高级),2012年于电子科技大学获得博士学位,2009—2011年美国西北大学访问学者,2019—2020年美国IUPUI高级访问学者,YOCSEF郑州2019—2020年度副主席。现执教于河南工业大学,主要研究方向为大数据、机器学习。发表学术论文30余篇,先后撰写《深度学习之美:AI时代的数据处理与最佳实践》《品味大数据》等科技图书7本,参与编写英文学术专著2部。
前言
本书内容
本书主要介绍Python的基础知识、数据分析的必备技能,以及机器学习相关内容。全书共分10章,每章的内容简介如下。
第1章 初识Python与Jupyter
Python是最具人气的编程语言之一,Jupyter是人气与口碑俱佳的Python开发平台。本章将介绍Python和Jupyter的基本内容,包括Python的安装与运行,以及文学化编程利器Jupyter的使用方法。
第2章 数据类型与程序控制结构
本章将介绍Python的基础语法及常见的数据类型,包括数值型、布尔类型、字符串型、列表、元组、字典、集合等。此外,本章还将介绍三种程序控制结构(顺序结构、选择结构和循环结构)和高效的推导式。
第3章 自建Python模块与第三方模块
本章将介绍Python的自定义模块及常用的第三方模块,包括collection、datetime、json、random等模块。
第4章 Python函数
本章将讨论Python的函数定义、函数参数(关键字参数、可变参数、默认参数等)的“花式”传递、函数的递归调用,以及函数式编程。
第5章 Python高级特性
本章将介绍Python中的一些高阶应用,这些高阶应用能让我们更高效地写出更专业的Python代码。本章内容涉及面向对象程序设计思想、生成器与迭代器、文件操作、异常处理及错误调试等。
第6章 NumPy向量计算
本章将讨论NumPy数组的构建、方法和属性,介绍NumPy的广播机制、布尔索引、数组的堆叠,以及爱因斯坦求和约定等。
第7章 Pandas数据分析
Pandas是数据分析的利器,本章将主要介绍Pandas的两种常用数据处理结构:Series和DataFrame。同时介绍基于Pandas的文件读取与分析,涉及数据的清洗、条件过滤、聚合与分组等。
第8章 Matplotlib与Seaborn可视化分析
Matplotlib和Seaborn是非常好用的数据可视化包,本章将主要介绍Matplotlib和Seaborn的基本用法,并基于此绘制可视化图形,包括散点图、条形图、直方图、饼图等。同时,本章将以谷歌流感趋势数据为例,结合Pandas进行可视化分析。
第9章 机器学习初步
本章将主要介绍有关机器学习的初步知识,包括机器学习的定义,机器学习的几个主要流派,并讨论机器学习模型的性能评估指标,包括混淆矩阵、查准率、查全率、P-R曲线、ROC曲线等。
第10章 sklearn与经典机器学习算法
本章将主要讲解知名机器学习框架sklearn的用法,并介绍几种经典机器学习算法的原理和实战,这些算法包括线性回归、k-近邻算法、Logistics回归、神经网络学习算法、k均值聚类算法等。
阅读准备
要想运行本书中的示例代码,需要提前安装如下系统及软件。
• 操作系统:Windows、macOS、Linux均可。
• Python环境:建议使用Anaconda安装,确保版本为Python 3.x即可。
• NumPy:建议使用Anaconda安装NumPy 1.18及以上版本。
• Pandas:建议使用Anaconda安装Pandas 1.0.1及以上版本。
• sklearn:建议使用Anaconda安装sklearn 0.22.1及以上版本。