本书是一本介绍数据分析相关算法的学习指南,主要包括数据分析及数据挖掘相关概念介绍、数据思维及各种数据分析算法的原理及实现方法。本书的每个数据分析算法都介绍了数学原理、Python代码实现以及实战案例,内容丰富、容易理解。
本书共9章,第1章介绍了数据挖掘与数据分析、机器学习之间的关系;第2 章介绍了数据分析人员应该具备的数据思维,包括数据思维认知、数据挖掘“定律”;第3~9章介绍了各种数据分析算法的原理、实现方法及实战案例,其中包括逻辑回归、决策树、朴素贝叶斯、聚类分析、关联规划、人工神经网络、集成学习。
本书适合从事数据分析工作的读者自学,也可作为产品经理、运营人员、市场人员和对数据分析感兴趣的读者的参考用书。
从数据思维到数据分析及挖掘算法
对机器学习进行研究能使我们成为更好的数据科学家和问题解决者。本书从数据分析理论出发,以编程实现为落脚点,最后从哲学层面对数据思维进行探讨,进而将思维“定律”与业务相结合。具体到编程层面,本书选择的工具是Python,因为它足够简单且实用,甚至在整个数据科学领域,Python基本都可以说是稳坐工具中的“头把交椅”。
笔者拥有多年大数据从业经验,穿梭于业务与“数据工作”之间,见证了业务与数据的“相爱相杀”。业务诉求是通过数据分析和数据挖掘技术实现的,由此,笔者将相对零散的技术进行了归纳与提炼。写书的过程也是知识沉淀与梳理及重新认识的过程,笔者心存感恩。
本书共9章,第1章对数据分析相关概念、概念间的关系及数据分析流程进行了总览和概述,并对后面章节所论述的机器学习算法的作用和应用领域进行了简单介绍。第2章对业务和数据的“相爱相杀”进行了阐述,包括数据思维认知以及数据挖掘“定律”。第3章是对逻辑回归从理论到实践的论述与讲解,包括模型的评估(此模型的评估原理的代码也适合本书后面介绍的决策树、朴素贝叶斯等有监督学习模型)。第4章是对决策树从理论到实践的论述与讲解,包括ID3、C4.5以及CART。第5章是对朴素贝叶斯从理论到实践的论述与讲解,包括多项式模型(MultinomialNB)、高斯模型(GaussianNB)和伯努利模型(BernoulliNB)。第6章是对聚类分析从理论到实践的论述与讲解,包括基于划分的K-means算法、K-mediods算法和基于密度的DBSCAN算法。第7章是对关联规则从理论到实践的论述与讲解,包括Apriori等算法。第8章是对人工神经网络从理论到实践的论述与讲解,包括BP(误差逆传播)等算法。第9章对集成学习进行了理论论述与讲解,包括Bagging、随机森林等算法。