本书以互联网电商企业为背景,抽象出工作中常见的数据分析问题,利用 R 语言和统计学列出了详细的解决方案和过程。本书共 9 章,前两章分别为总论和 R 语言入门知识,之后各章分别介绍了运营指标的建立、指标监控系统、假设检验及 AB 测试、变量筛选技术、用户画像系统、寻找优质用户和文本挖掘等内容。本书涉及到的统计方法有:指标增长幅度量化方法、层次分析法、时间序列模型、基于正态分布的一元离群点检验、傅里叶谱分析、假设检验、主成分分析、因子分析、模糊聚类、无监督下连续型变量离散化、逻辑回归模型和文本挖掘等。另外,本书提供了所有实例的 R 语言实现代码,总计 33 个自定义函数和数千行代码。
本书适合数据分析从业人员、产品运营人员、统计专业学生和 R 语言爱好者阅读。
深入洞察用户行为数据,让产品与运营快人一步,实战项目有建立运营指标、搭建指标监控系统、AB测试算法、智能化筛选、用户画像、潜在购买力模型……
前言
2009 年,当我走出校园的时候,整个世界在我的眼睛里都是“灰色”的。就在几个月前,由于英语成绩差一分没能考上研究生,正好又赶上金融危机和工作找的晚,能有一家公司接纳我已实属庆幸。刚出校园的我并不知道该做什么事情,应用数学——这个什么都能做、什么又都做不了的专业让我头痛不已,浑浑噩噩工作了一年,并没有学到什么有用的东西。有一天傍晚,独自走在街边,无意间听到了歌曲《最初的梦想》:“最初的梦想紧握在手上,最想要去的地方,怎么能在半路就返航……”当天晚上,这首歌在我的脑海中不停地回荡,一直到深夜。生活不应该是这样,曾经的理想远没到绝望的地步。理想,这个已快被遗忘的东西重新回到了我的脑海中:我要做一名优秀的数据分析师。之后的一段时间,我拿起了统计学图书,每天晚上在华师大田家炳教育学院的教室中学习到很晚,统计学精妙的思想和优美的公式宛如一个气质典雅的妙龄女子,越品越有深意,越看越觉动人。渐渐的,我的生活也发生了改变,现有的工作已经不能实现我的理想,于是我开始寻找更高的平台。可是现实并不是自己想象的那样美好。有一次去张江某个科技公司面试,面试官看到简历后问我是哪里毕业的,最后很蔑视地把简历退给了我。回家的路上,我心如刀绞,心情久久不能平静。要让别人看得起你的唯一方式就是你足够优秀。之后很长一段时间,学习、实践成为了我的全部。在整个学习过程中,我发现无论是现有图书还是网上资料,大部分都是理论介绍,真正应用层面的资料很少,就算有也只是轻描淡写地飘过,前因后果和真正值得注意的地方都不会写得很详细。于是,在学习和钻研的同时,我做了大量的整理和记录。这些宝贵的资料成为了我之后工作中重要的“武器”,也是本书灵感、技术的源泉。一年之后,在一家公司面试时很巧合地又遇见了那位曾经退我简历的面试官,这次我以初试第一名的成绩进入了面试,在谈话的最后,我看着她的眼睛郑重地跟她说:我本科就读于东华大学,一所普通的 211 大学,但不妨碍我成为一名优秀的数据分析师,请把我的简历还给我。若干年后,我认识到了当年的举动纯属年少轻狂,但并不后悔,正是有了这次经历才让我知道一个人是可以通过努力改变人生轨迹的。
本书特色
上述经历只是想告诉阅读本书的读者,数据分析工作并不是一座高不可攀的山峰,对于大部分普通人来说,只要刻苦钻研和动手实践,一定能够感受到数据分析带来的快乐和成就感。钻研和实践离不开书籍,目前市场上的数据分析图书对理论部分的介绍比较多,真正实际应用的内容比较少,即便是实际应用,其核心内容也只是寥寥几句,如逻辑回归,简单的数据处理后直接进行模型拟合。在实际应用过程中,现实往往复杂得多,仅有上述简单粗暴的说明在实际工作中面对具体项目时往往达不到需要的效果。笔者后来读在职研究生时,记得华东师范大学的王静龙教授曾经说过:数据分析工作最怕的就是不管三七二十一,拿到数据后直接套模型。这就要求我们在学习时搞清楚模型方法背后的理论,在实际工作中判别模型运用的条件。本书正是想填补市场上这一方面的空缺,以互联网电商为背景,把一些普遍遇到的问题拿出来,以项目的形式呈现并提出具体的解决方案。相信读者看完本书后,对互联网电商及数据分析实际应用会有不同的感受。2014 年,经过一番思想斗争后,我最终选择学习 R 语言。 R 语言语法简捷、资源众多、开源免费等优点在互联网企业中应用广泛。也许很多读者会把 R 语言与 Python 做比较,在我看来,数据分析师最主要的工作是快速实现算法,因此 R 语言绝对是数据分析师最好的选择。本书给出了所有实例的 R 语言源代码,共 33 个自定义函数和数千行 R 语言代码,每个自定义函数都实现了一个统计分析模块,读者可以直接使用或者根据自己的业务模型修改后使用。
如何阅读本书
本书第 1 章介绍互联网行业统计分析及全书的架构和说明。第 2 章详细介绍 R 语言入门的基础知识,如果读者对 R 语言的基础知识已经很熟悉了,可以跳过此章。后面几章都围绕着具体项目展开,其形式分为 3 部分:项目背景、目标和方案,项目技术理论简介,项目实践。项目背景、目标和方案为整章的导引,介绍整个项目的前后缘由及需要解决的问题。项目技术理论简介部分又分为两个部分,第 1 部分为该项目涉及到的统计学理论,方便读者回顾知识点;第 2 部分为涉及到的统计学理论的 R 语言实现方法。项目实践部分具体阐述项目解决的整个过程,包括详细的 R 语言源代码。
本书适合人群
●互联网行业数据分析人员:通过阅读本书,可以把学到的知识直接运用到生产实践中。
●互联网产品运营人员:通过阅读本书,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
●统计专业高校生:本书可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
●其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
●致力于数据分析工作的爱好者:本书可以作为数据分析从业人员相互交流、沟通的桥梁。
●R 语言爱好者: R 语言的应用渗透到生产实践的方方面面,本书既讲解互联网电商实际项目,又是 R 语言交流的平台。
勘误和联系
由于时间仓促及水平有限,本书难免有错误和不准确的地方,恳请读者批评指正。具体联系方式如下。
(1)微信: roger_luo 121
(2)邮箱: rongjinluo@163.com
此外,本书的勘误将会在我的个人博客(http://blog.sina.com.cn/u/1984071801)上发布。
致谢
感谢中国统计网的赵良和电子工业出版社的张慧敏老师,没有他们的介绍和指导,这本书就不会有创作的机会。
感谢我的妻子、女儿和岳母,正是你们的鼓励和支持,我才会走到今天。尤其是我的妻子,一直以来对我的学业和事业都无条件支持,你的鼓励和陪伴永远是我前行的动力。
感谢蒋庆、何丽丽在本书创作过程中给予的帮助。尤其是蒋庆,本书各个章节都有他的建议和校验,正是有了他的帮助,才使得本书写作顺畅地完成。
感谢东华大学和华东师范大学的老师和同学,从你们身上学到的东西让我终身受用。
最后,特别要感谢的是我的爸爸和已故的妈妈。 11 年的快乐童年是那样的短暂,对我的一生更是显得弥足珍贵。此后,在父亲和家人细心呵护、竭力培养下才有了我的今天。妈妈生命的最后时刻,跟我说的最后一句话是让我听话和好好读书,谨以此书献给天上的您,希望您在天堂开心、快乐。
罗荣锦
2017 年 4 月
书超级棒的!希望以后能继续出这样贴合应用且理论也丰富的书
下载数据后,没有发现第三章的数据
下载资源后,打开后,发现R代码中汉字变化乱码,如何解决?
a/b #鐭╅樀闄ゆ硶
rowSums(a) #琛屾眰鍜?
rowMeans(a) #琛屽钩鍧?
colMeans(a) #鍒楀钩鍧?
t(a) #鐭╅樀a杞疆
det(c) #鐭╅樀c鐨勮鍒楀紡
a%*%b #鏁板鎰忎箟鐭╅樀涔樻硶
crossprod(a,b) #鐭╅樀鍐呯Н
outer(a,b) #鐭╅樀澶栫Н
eigen(a) #鐭╅樀鐗瑰緛鍊煎強鐗瑰緛鍚戦噺
solve(c) #姹傞€嗙煩闃?
solve(c,a) #姹俢x=a
diag(a) #瀵硅绾垮厓绱?
书超棒,给5❤好