商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品
研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否
则很有可能被人工智能替代。
本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。
本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材。
一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据挖掘的目的、理念、思路与分析步骤。
常国珍,北京大学会计学博士,中国大数据产业生态联盟专家委员会专家委员。主要从事金融、电信行业客户画像,信用与操作风险识别与防范,客户终生价值预测与价值提升等工作。
曾珂,华中师范大学管理科学工程硕士,现为车贷金融产品部产品经理,精通Python与R语言数据挖掘。曾经就职于华为、国家电网等企业。以金融信用与欺诈风险建模、文本分析、数据可视化等为主要研究方向。
朱江,挪威科技大学工学硕士,现为CDA数据分析研究院课程开发副总监,CDA数据挖掘竞赛的评委。精通R与SAS语言数据挖掘,从事电商与互联网数据分析的教学工作。研究方向为电商推荐系统开发、数据可视化、客户特征提取和客户行为模式发现。
本书有别于其他数据挖掘书籍最大的特点在于参与写作的主要作者均为非理工科背景并具有数据挖掘岗位数年的实际工作经验,且从事 3 年以上的培训工作。这使得本书更贴近实际运用的同时,紧抓初学者的痛点,语言更浅显易懂,操作性更强。当然,这也使得本书在前沿方法的讲解上略显不足。因为一个算法要在商业数据挖掘中得到运用需要大致 3~5 年的时间。所以本书仅适合数据挖掘入门人员使用。而且本系列教材强调追求浅显易懂,只注重运用中是否够用,不关心算法知识的全面性,因此在算法推导过程中降低了难度,不涉及非关键且不易理解的部分。当读者从事数据挖掘 2~3 年后,本书的知识就不能满足其更高的需求了,需要参考内容更深入的书籍,比如更专业的《统计学习方法》、《机器学习》等。
本书按照数据挖掘工程师规范化学习体系而定,对于一名初学者,应该先掌握必要的编程工具、统计理论基础、数据挖掘算法等内容。进而,数据挖掘需要根据业务问题选择合适的方法,按照标准流程,即数据的获取、储存、整理、清洗、归约等一系列数据处理技术,并最终得出果,绘制图表并解读数据,这些内容在本书中进行了详细的讲解和操作分析。本书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用,为欲从事数据挖掘的各界人士提供一个规范化的数据分析师学习体系。
读者对象
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数
据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。
工具介绍
当前, R 和 Python 等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消逝殆尽。商业数据分析的真正目的是为了解决业务的分析需求,构造稳健的数据挖掘模型。数据挖掘产品的质量是通过对分析流程的严格掌控而得以保障的。本书注重实用,直指数据挖掘实施的要点,精选业界使用最广泛的实施方案,为读者节约宝贵的时间。相对于 Python, R 偏向于统计分析、计量经济学和统计内容。 R 不仅在学术研究中拥有广泛的用户基础,而且和 Oracle、 SQL Sever 等数据库软件的结合使其不再受内存的限制,从而在商业上有了一定的用武之地。而且 R 和 Hadoop、 Spark 等大数据分析平台也可以自由连接。
阅读指南
本书包括 18 章,内容涉及使用 R 做数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章至第 8 章为统计学习方法,第 9 章至第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。为方便读者学习,本书提供书中案例的源文件下载,请读者进入 CDA 官网(http://cda.cn/view/22045.html)的相应专栏下载数据和源代码。
本书特点
本书作为 CDA 第一本数据挖掘教材,和其他统计软件图书有很大的不同,文体结构新颖,案例贴近实际,讲解深入透彻。这些特点主要表现在以下几方面。
场景式设置
本书对互联网、电商、电信、银行等商业案例进行精心归纳,提炼出各类数据分析的运用场景,方便读者查找与实际工作相似的问题。
开创式结构
本书案例中的“解决方案”环节是对问题的解决思路的解说,结合“操作方法”环节中的步骤让读者更容易理解。“原理分析”环节则主要解释所使用代码的工作原理或者详细解释思路。“知识扩展”环节是对与案例相关的知识点的补充,既能拓展读者的视野,同时也有利于理解案例本身的解决思路。
启发式描述
本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现、总结和运用规律,从而启发读者快速地找出解决问题的方法。
学习方法
俗话说,“打把势全凭架势,像不像,三分样”。只有熟悉数据挖掘的流程,才能实现从模仿到
灵活运用的提升。在产品质量管理方面,对流程的掌控是成功的关键,在数据挖掘过程中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,一个步骤的失误会带来完全错误的结果。一个数据挖掘的流程大致包括抽样、数据清洗、数据转换、建模和模型评估这几个步骤。如果抽样中的取数逻辑不正确,就有可能使因果关系倒置,因而得到完全相反的结论。如果数据转换方法选择不正确,模型就难以得到预期的结果。而且,数据分析是一个反复试错的过程,每一步都要求有详细的记录和操作说明,否则数据挖掘人员很可能迷失方向。学习数据挖掘最好的方法就是动手做一遍,本书语言通俗但高度凝炼,很少有公式,以避免读者麻痹大意。本书按照相关商业数据分析主题提供了相应的练习数据,同时提供相关方面的参考资料,供读者学习。
致谢
本书由经营之家主编, CDA 数据分析研究院策划,常国珍、曾珂、朱江负责编写和完成统稿。丛书从策划到出版,倾注了电子工业出版社张慧敏、石倩、王静、杨嘉媛等多位编辑的心血,特在此表示衷心的感谢!
为保证丛书的质量,使其更贴近读者,我们组织了著名学者和工作在数据挖掘一线的工程师参与了本书的预读工作,他们是李御玺教授、瞿辉工程师。感谢两位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面。尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或认为某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时做出修正。再次感谢您的支持!
发现一个错别字:前言中第VII页致谢的第一行:经营之家—->经管之家!后期再版时记得完善。
根据下载的数据,页首的四张图,第一行实际为fico_score的不违约与违约的直方图,第二行为purch_price的不违约和违约的直方图。同时下面的结论也有误,信用打分违约不违约都是正态分布,购买金额违约不违约都是右偏分布