对于希望使用Python来完成数据分析工作的人来说,学习IPython、Numpy、pandas、Matplotlib这个组合是目前看来不错的方向。本书就是这样一本循序渐进的书。
本书共3篇14章。第1篇是Python数据分析语法入门,将数据分析用到的一些语言的语法基础讲解清楚,为接下来的数据分析做铺垫。第2篇是Python数据分析工具入门,介绍了Python数据分析“四剑客”——IPython、Numpy、pandas、Matplotlib。第3篇是Python数据分析案例实战,包括两个案例,分别是数据挖掘和玩转大数据,为读者能真正使用Python进行数据分析奠定基础。
本书内容精练、重点突出、实例丰富,是广大数据分析工作者必备的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。
采用Python 3.6版本,兼容Python 3.X等众多版本
一本书搞定IPython、Numpy、Matplotlib、pandas,助你成为数据分析专家
前 言
由于Python具有简单、易学、免费开源、可移植性、可扩展性等特点,所以它的受欢迎程度扶摇直上。再加上Python拥有非常丰富的库,这也使得它在数据分析领域有着越来越广泛的应用。如果你已经决定学习Python数据分析,但是之前没有编程经验,那么本书将会是你的正确选择。
本书的第1篇主要介绍学习数据分析必备的一些Python语法基础,包括Python的安装、数据类型、数据结构、模块、类、异常处理、使用pip安装Python需要的一些工具等;第2篇主要介绍Python在数据处理和科学计算方面的工具和方法,包括IPython交互式壳的使用、Jupyter Notebook的使用和Numpy的使用,还介绍了Python的核心数据分析处理库pandas,以及Python著名的2D绘图库Matplotlib;第3篇通过数据挖掘和玩转大数据两个案例总结和应用前面所学的知识。
这三篇的层进正好是Python数据分析入门者的阶梯,读者通过学习这三部分内容,即可迈入数据分析的门槛。
本书的特点
Python是当前非常流行的面向对象编程语言,本书将其在数据分析处理方面的特色发挥到极致。本书的主要特点如下:
Python被大量应用在数据挖掘和机器学习领域,其中使用极其广泛的是IPython、Numpy、pandas、Matplotlib等库。本书详细地介绍了这些库的组成与使用,为科学计算相关人员提供了有用的参考资料。
本书采取循序渐进的写作风格,对于工具的安装、使用步骤、方法技巧逐步展开,加以图解和应用场景,即使完全不懂Python和数据分析的人员,也可以流畅地读完本书。
无论哪种语言,编程的方法、模式、数据结构、算法都是相通的。本书将科学计算、数据结构与各种工具和方法完美结合,让非Python读者也能融会贯通,让学习统计的人能找到更适合的统计方法和数据分析处理方法。
本书最后的两个实战案例适合数据分析入门者,案例的步骤详细、分析到位,能为读者入手真实项目打下良好的基础。
本书的内容安排
本书共3篇14章,主要章节规划如下:
第1章介绍了Python的发展历程、特性,帮助读者搭建最基础的数据分析环境,下载开发语言,选择开发工具,然后在此基础上开发自己的第一个Python程序。读者在学完本章内容后应该对Python有一个基础的认识,知道为什么选择它来进行数据分析。
第2章介绍了Python的基础语法,包括它的代码组织形式、如何缩进、如何注释等,以及输入/输出该如何处理,在中文环境下如何更好地使用Python是本章的重点,最后还通过一个实例复习了Python的这些语法。读者在学完本章内容后可以轻松地编写一些简单的Python程序。
第3章介绍了Python的数据类型与流程控制语句。如果读者已有编程基础,那么阅读本章内容不会有任何压力。如果没有编程基础,那么学习一门语言的流程控制最关键的就是这些知识。读者在阅读完本章后就能轻松阅读更大的Python程序。
第4章介绍了可复用的函数与模块。这些内容较为复杂,但却是进行数据分析的关键。每个数据处理过程我们都会用到函数或模块,而我们后期用到的数据分析库也可以说是一个大函数。所以学习完本章内容,读者应该能够看明白一个完整的Python库。
第5章介绍了数据结构与算法,这是数据分析的基础,也是人工智能的基础。利用算法我们可以找到解决方案,也可以找到最优路径,还可以更高效地完成数据分析任务。读者如果没有看懂本章内容,一定要反复阅读,直到学会为止。
第6章介绍了面向对象的Python。面向对象已经成为每门语言都具备的特性,类、对象、继承这些概念都是面向对象的基础。如果读者没有编程经验,则阅读本章可能会有一定的难度,但是了解了对象的概念,就能学会如何编写更高效的代码、如何让代码和代码之间联动起来。
第7章介绍了异常处理与程序调试。机器毕竟不是人,如果出现错误,则可能会导致死机,或者数据出错。为了防止这些错误的发生,或者防止程序的使用方能得到反馈,我们必须学会Python的异常处理功能。并且当程序发生错误时,我们还要通过程序调试找到错误所在。
第8章介绍了pip软件包管理。既然在做数据分析时我们要用到很多数据分析库,那么如何下载、安装或管理这些库就成了数据分析的第一步。pip就是这样一个工具,它能下载、安装、更新、显示、搜索我们需要的数据分析库。
第9章介绍了IPython科学计算库,它是使用Python进行数据分析、处理、呈现的重要选择之一。本章主要介绍了Python科学计算库的安装方法、IPython壳的一些特性和基本功能、Jupyter Notebook的安装和使用方法。IPython壳的使用是本章的重点,也是数据分析处理的基础工具,希望读者能够消化本章内容,为真正做好数据项目打下基础。
第10章介绍了Numpy科学计算库,主要介绍了它的数组对象及数组对象的一些基本属性和生成数组的基本方法,还包括数组的索引和分片等基本操作,这部分内容是Numpy数据处理的核心。本章介绍的代数运算函数、线性代数、统计函数等内容会让读者觉得有些困惑,但这已经进入了数据分析的关键时刻,所以仍建议读者对本章的内容融会贯通。
第11章介绍了pandas数据分析处理库,主要包括它的序列、数据框的基本操作,还包括pandas里处理默认值、读取常见格式的文本数据,以及数据的组合和分组操作。最后介绍了pandas的时间序列和一个处理实际数据集的案例,读者掌握了这些内容,就可以更好地处理数据。
第12章介绍了Matplotlib的Pyplot和Artist模块,以及pandas的绘图功能。对于读者来说,Pyplot模块是需要掌握的,Artist模块是需要了解的,pandas的绘图功能在实际数据分析中要能熟练应用。
第13章是数据挖掘的案例。首先介绍了著名的贝叶斯理论,然后实现了贝叶斯分类器,最后实现了协同过滤算法,这些都是数据挖掘、分析领域的基础算法。建议读者尝试自己编写代码,熟练掌握贝叶斯分类器和协同过滤算法的使用。
第14章是玩转大数据的案例。鉴于本书主要针对数据分析入门者,所以本章也逐步实现了数据的分析过程,从了解数据到分析数据,最后到代码实现,相信读者学完本章内容后,就能真正动手分析大数据了。
本书由浅入深、从理论到实践,尤其适合初学者逐步学习和完善自己的知识结构。
请访问www.broadview.com.cn/33613下载配套代码。
适合阅读本书的读者
希望从事数据分析相关工作的人员。
数据分析工作人员。
大数据从业人员。
Python爱好者。
人工智能从业人员。
统计行业的人员。
大、中专院校统计相关专业的学生。
与书的章节不匹配,希望负责任点。
作者你好,前言提示的配套代码对不上啊,应该去哪里找配套代码呀
提供的源代码,第11章根本不存在?!请问作者,你在第11章中提到的数据集连接根本无法打开,为什么?为什么不放在代码集中?载下来代码集,结果根本就没有第11章!这做事态度佩服!坑啊!