R 语言数据分析项目精解:理论、方法、实战
  • 推荐1
  • 收藏4
  • 浏览2.9K

R 语言数据分析项目精解:理论、方法、实战

罗荣锦 (作者) 

  • 书  号:978-7-121-31573-2
  • 出版日期:2017-06-29
  • 页  数:352
  • 开  本:16(185*235)
  • 出版状态:上市销售
  • 维护人:张慧敏
电子书 ¥49.00
购买电子书
纸质版 ¥69.00
本书以互联网电商企业为背景,抽象出工作中常见的数据分析问题,利用 R 语言和统计学列出了详细的解决方案和过程。本书共 9 章,前两章分别为总论和 R 语言入门知识,之后各章分别介绍了运营指标的建立、指标监控系统、假设检验及 AB 测试、变量筛选技术、用户画像系统、寻找优质用户和文本挖掘等内容。本书涉及到的统计方法有:指标增长幅度量化方法、层次分析法、时间序列模型、基于正态分布的一元离群点检验、傅里叶谱分析、假设检验、主成分分析、因子分析、模糊聚类、无监督下连续型变量离散化、逻辑回归模型和文本挖掘等。另外,本书提供了所有实例的 R 语言实现代码,总计 33 个自定义函数和数千行代码。
本书适合数据分析从业人员、产品运营人员、统计专业学生和 R 语言爱好者阅读。
深入洞察用户行为数据,让产品与运营快人一步,实战项目有建立运营指标、搭建指标监控系统、AB测试算法、智能化筛选、用户画像、潜在购买力模型……
前言
2009 年,当我走出校园的时候,整个世界在我的眼睛里都是“灰色”的。就在几个月前,由于英语成绩差一分没能考上研究生,正好又赶上金融危机和工作找的晚,能有一家公司接纳我已实属庆幸。刚出校园的我并不知道该做什么事情,应用数学——这个什么都能做、什么又都做不了的专业让我头痛不已,浑浑噩噩工作了一年,并没有学到什么有用的东西。有一天傍晚,独自走在街边,无意间听到了歌曲《最初的梦想》:“最初的梦想紧握在手上,最想要去的地方,怎么能在半路就返航……”当天晚上,这首歌在我的脑海中不停地回荡,一直到深夜。生活不应该是这样,曾经的理想远没到绝望的地步。理想,这个已快被遗忘的东西重新回到了我的脑海中:我要做一名优秀的数据分析师。之后的一段时间,我拿起了统计学图书,每天晚上在华师大田家炳教育学院的教室中学习到很晚,统计学精妙的思想和优美的公式宛如一个气质典雅的妙龄女子,越品越有深意,越看越觉动人。渐渐的,我的生活也发生了改变,现有的工作已经不能实现我的理想,于是我开始寻找更高的平台。可是现实并不是自己想象的那样美好。有一次去张江某个科技公司面试,面试官看到简历后问我是哪里毕业的,最后很蔑视地把简历退给了我。回家的路上,我心如刀绞,心情久久不能平静。要让别人看得起你的唯一方式就是你足够优秀。之后很长一段时间,学习、实践成为了我的全部。在整个学习过程中,我发现无论是现有图书还是网上资料,大部分都是理论介绍,真正应用层面的资料很少,就算有也只是轻描淡写地飘过,前因后果和真正值得注意的地方都不会写得很详细。于是,在学习和钻研的同时,我做了大量的整理和记录。这些宝贵的资料成为了我之后工作中重要的“武器”,也是本书灵感、技术的源泉。一年之后,在一家公司面试时很巧合地又遇见了那位曾经退我简历的面试官,这次我以初试第一名的成绩进入了面试,在谈话的最后,我看着她的眼睛郑重地跟她说:我本科就读于东华大学,一所普通的 211 大学,但不妨碍我成为一名优秀的数据分析师,请把我的简历还给我。若干年后,我认识到了当年的举动纯属年少轻狂,但并不后悔,正是有了这次经历才让我知道一个人是可以通过努力改变人生轨迹的。
本书特色
上述经历只是想告诉阅读本书的读者,数据分析工作并不是一座高不可攀的山峰,对于大部分普通人来说,只要刻苦钻研和动手实践,一定能够感受到数据分析带来的快乐和成就感。钻研和实践离不开书籍,目前市场上的数据分析图书对理论部分的介绍比较多,真正实际应用的内容比较少,即便是实际应用,其核心内容也只是寥寥几句,如逻辑回归,简单的数据处理后直接进行模型拟合。在实际应用过程中,现实往往复杂得多,仅有上述简单粗暴的说明在实际工作中面对具体项目时往往达不到需要的效果。笔者后来读在职研究生时,记得华东师范大学的王静龙教授曾经说过:数据分析工作最怕的就是不管三七二十一,拿到数据后直接套模型。这就要求我们在学习时搞清楚模型方法背后的理论,在实际工作中判别模型运用的条件。本书正是想填补市场上这一方面的空缺,以互联网电商为背景,把一些普遍遇到的问题拿出来,以项目的形式呈现并提出具体的解决方案。相信读者看完本书后,对互联网电商及数据分析实际应用会有不同的感受。2014 年,经过一番思想斗争后,我最终选择学习 R 语言。 R 语言语法简捷、资源众多、开源免费等优点在互联网企业中应用广泛。也许很多读者会把 R 语言与 Python 做比较,在我看来,数据分析师最主要的工作是快速实现算法,因此 R 语言绝对是数据分析师最好的选择。本书给出了所有实例的 R 语言源代码,共 33 个自定义函数和数千行 R 语言代码,每个自定义函数都实现了一个统计分析模块,读者可以直接使用或者根据自己的业务模型修改后使用。
如何阅读本书
本书第 1 章介绍互联网行业统计分析及全书的架构和说明。第 2 章详细介绍 R 语言入门的基础知识,如果读者对 R 语言的基础知识已经很熟悉了,可以跳过此章。后面几章都围绕着具体项目展开,其形式分为 3 部分:项目背景、目标和方案,项目技术理论简介,项目实践。项目背景、目标和方案为整章的导引,介绍整个项目的前后缘由及需要解决的问题。项目技术理论简介部分又分为两个部分,第 1 部分为该项目涉及到的统计学理论,方便读者回顾知识点;第 2 部分为涉及到的统计学理论的 R 语言实现方法。项目实践部分具体阐述项目解决的整个过程,包括详细的 R 语言源代码。
本书适合人群
●互联网行业数据分析人员:通过阅读本书,可以把学到的知识直接运用到生产实践中。
●互联网产品运营人员:通过阅读本书,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
●统计专业高校生:本书可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
●其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
●致力于数据分析工作的爱好者:本书可以作为数据分析从业人员相互交流、沟通的桥梁。
●R 语言爱好者: R 语言的应用渗透到生产实践的方方面面,本书既讲解互联网电商实际项目,又是 R 语言交流的平台。
勘误和联系
由于时间仓促及水平有限,本书难免有错误和不准确的地方,恳请读者批评指正。具体联系方式如下。
(1)微信: roger_luo 121
(2)邮箱: rongjinluo@163.com
此外,本书的勘误将会在我的个人博客(http://blog.sina.com.cn/u/1984071801)上发布。
致谢
感谢中国统计网的赵良和电子工业出版社的张慧敏老师,没有他们的介绍和指导,这本书就不会有创作的机会。
感谢我的妻子、女儿和岳母,正是你们的鼓励和支持,我才会走到今天。尤其是我的妻子,一直以来对我的学业和事业都无条件支持,你的鼓励和陪伴永远是我前行的动力。
感谢蒋庆、何丽丽在本书创作过程中给予的帮助。尤其是蒋庆,本书各个章节都有他的建议和校验,正是有了他的帮助,才使得本书写作顺畅地完成。
感谢东华大学和华东师范大学的老师和同学,从你们身上学到的东西让我终身受用。
最后,特别要感谢的是我的爸爸和已故的妈妈。 11 年的快乐童年是那样的短暂,对我的一生更是显得弥足珍贵。此后,在父亲和家人细心呵护、竭力培养下才有了我的今天。妈妈生命的最后时刻,跟我说的最后一句话是让我听话和好好读书,谨以此书献给天上的您,希望您在天堂开心、快乐。
罗荣锦
2017 年 4 月

目录

第 1 章 互联网+统计学+R 语言1
1.1 互联网中的统计学1
1.1.1 “互联网+”的发展1
1.1.2 统计学的发展2
1.1.3 大数据时代的统计学2
1.2 R 语言——互联网与统计学的桥梁3
1.3 本书结构 5
第 2 章 R 语言基础 7
2.1 安装 R 语言 7
2.1.1 获取和安装 R 语言 7
2.1.2 安装 RStudio 9
2.1.3 R 包 10
2.1.4 帮助12
2.2 R 语言基本对象12
2.2.1 数据类型12
2.2.2 向量12
2.2.3 矩阵和数组19
2.2.4 列表27
2.2.5 数据框29
2.2.6 因子32
2.2.7 数据类型的辨别和转换39
2.2.8 数据类型和对象关系 39
2.3 工作空间和查看对象 40
2.3.1 工作空间和工作目录 40
2.3.2 遍历、创建、删除文件夹 41
2.3.3 查看对象的方法 42
2.4 数据导入和导出43
2.4.1 数据导入43
2.4.2 数据导出49
2.5 操作符和函数51
2.5.1 操作符51
2.5.2 函数54
2.6 数据集操作59
2.6.1 变量操作60
2.6.2 数据集操作63
2.6.3 数据集连接67
2.6.4 数据汇总68
2.7 控制流71
2.7.1 重复和循环71
2.7.2 条件执行73
2.7.3 next 和 break 74
2.8 自定义函数75
第 3 章 互联网运营指标的建立77
3.1 项目背景、目标及方案78
3.1.1 项目背景78
3.1.2 项目目标78
3.1.3 项目方案78
3.2 项目技术理论简介78
3.2.1 骨灰级流量指标 78
3.2.2 登录和激活80
2.2.3 访问深度和吸引力 81
3.2.4 订单指标85
3.2.5 网站或 APP 性能指标86
3.2.6 转化率87
3.2.7 层次分析法87
3.3 项目实践 92
3.3.1 搭建运营指标系统 92
3.3.2 制作对比型指标及趋势线 97
3.3.3 创建用户价值和活跃度指标 101
第 4 章 指标监控系统111
4.1 项目背景、目标及方案 111
4.1.1 项目背景111
4.1.2 项目目标111
4.1.3 项目方案112
4.2 项目技术理论简介112
4.2.1 时间序列基本统计量 112
4.2.2 数据观测与描述性统计 113
4.2.3 随机性115
4.2.4 周期性115
4.2.5 节假日模式识别 115
4.2.6 建模数据集的建立 118
4.2.7 指标监控方法(不含节假日)125
4.2.8 节假日指标监控方法 134
4.2.9 R 语言实例代码 135
4.3 项目实践 141
4.3.1 数据概览142
4.3.2 节假日模式识别 145
4.3.3 模型数据集的建立 155
4.3.4 指标监控(非节假日)160
4.3.5 节假日指标监控 176
4.3.6 总结181
第 5 章 用数据驱动业务——AB 测试 182
5.1 项目背景、目标和方案 182
5.1.1 项目背景182
5.1.2 项目目标183
5.1.3 项目方案183
5.2 项目技术理论简介183
5.2.1 自动化分流策略 183
5.2.2 整体评估指标185
5.2.3 概率论预备知识 186
5.2.4 假设检验191
5.2.5 三个问题197
5.3 项目实践 197
第 6 章 变量筛选技术204
6.1 项目背景、目标和方案 204
6.1.1 项目背景204
6.1.2 项目目标205
6.1.3 项目方案205
6.2 项目技术理论简介205
6.2.1 变量相关性206
6.2.2 变量筛选209
6.2.3 变量降维215
6.2.4 R 语言实例代码 225
6.3 项目实践 237
6.3.1 变量筛选238
6.3.2 变量降维243
第 7 章 构建用户画像系统 247
7.1 项目背景、目标和方案 247
7.1.1 项目背景247
7.1.2 项目目标248
7.1.3 项目方案248
7.2 项目技术理论简介248
7.2.1 用户画像的基本概念 248
7.2.2 用户画像应用领域 249
7.2.3 用户画像分类250
7.2.4 用户画像构建250
7.2.5 用户画像标签的数值处理方法 254
7.3 项目实践 256
第 8 章 从数据中寻找优质用户 261
8.1 项目背景、目标和方案 261
8.1.1 项目背景261
8.1.2 项目目标262
8.1.3 项目方案262
8.2 项目技术理论简介262
8.2.1 逻辑回归的基本概念 262
8.2.2 建模流程266
8.2.3 模型开发阶段269
8.2.4 模型验证阶段279
8.2.5 模型测试阶段285
8.2.6 商业应用流程288
8.2.7 R 语言实例代码 288
8.3 项目实践 295
8.3.1 数据探索295
8.3.2 数据处理297
8.3.3 建立模型302
8.3.4 模型验证304
8.3.5 总结308
第 9 章 文本挖掘——点评数据展示策略 309
9.1 项目背景、目标和方案 310
9.1.1 项目背景310
9.1.2 项目目标311
9.1.3 项目方案311
9.2 项目技术理论简介312
9.2.1 评论文本质量量化指标模型 312
9.2.2 用户相似度模型 313
9.2.3 情感性分析316
9.2.4 R 语言实例代码 321
9.3 项目实践 326
9.3.1 若干自定义函数 326
9.3.2 文本质量量化指标模型 329
9.3.3 用户相似度模型 334
9.3.4 情感性分析335
9.3.5 总结340

读者评论

  • 书超级棒的!希望以后能继续出这样贴合应用且理论也丰富的书

    姗姗来迟发表于 2019/7/23 17:45:42
  • 下载数据后,没有发现第三章的数据

    xiayu发表于 2019/4/9 14:11:45
  • 下载资源后,打开后,发现R代码中汉字变化乱码,如何解决?

    a/b #鐭╅樀闄ゆ硶
    rowSums(a) #琛屾眰鍜?
    rowMeans(a) #琛屽钩鍧?
    colMeans(a) #鍒楀钩鍧?
    t(a) #鐭╅樀a杞疆
    det(c) #鐭╅樀c鐨勮鍒楀紡
    a%*%b #鏁板鎰忎箟鐭╅樀涔樻硶
    crossprod(a,b) #鐭╅樀鍐呯Н
    outer(a,b) #鐭╅樀澶栫Н
    eigen(a) #鐭╅樀鐗瑰緛鍊煎強鐗瑰緛鍚戦噺
    solve(c) #姹傞€嗙煩闃?
    solve(c,a) #姹俢x=a
    diag(a) #瀵硅绾垮厓绱?

    liyu1385发表于 2019/3/1 15:30:25
  • 书超棒,给5❤好

    wangyawei发表于 2018/4/4 17:56:43

下载资源

电子书版本

  • Epub

推荐用户

相关图书

Python编程与3D物理学仿真(视频版)

张继春 (作者)

本书将Python编程和物理力学知识同步结合起来,通过编程将物理概念和物理过程进行3D可视化展 现,帮助读者在3D场景下加深对物理知识的理解和掌握,从而培养读者...

¥89.90

Photoshop设计师精通之道:摄影+平面+UI+网店实战全解

委婉的鱼 (作者)

近些年,Photoshop软件在平面设计、广告摄影、影像创意、网页制作、后期修饰、视觉创意及界面 设计中的重要地位越来越不可被撼动,学好Photoshop是一个...

¥62.30

利用Python轻松学数学

蹇 彤 (作者)

本书将Python编程的基本知识和中小学数学知识紧密结合起来,在介绍Python知识的同时穿插数学趣题和难题的讲解,以引导读者从一个全新的角度来看待编程、体验编...

¥69.00

Python接口自动化测试

王浩然 (作者)

本书主要介绍如何用Python实现接口自动化测试。全书主要内容包括接口基础、接口手工测试、编程前的准备、用Python处理MySQL数据库、用Python发送H...

¥59.00

Python编程之美:最佳实践指南

Reitz,Schlusser (作者) 夏永锋 (译者)

本书是Python用户的一本百科式学习指南,由Python社区数百名成员协作奉献。<br>全书内容分为三大部分。第一部分是关于如何配置使用Python编辑工具的...

¥89.00

Lua程序设计(第4版)

Roberto Ierusalimschy (作者) 梅隆魁 (译者)

本书由 Lua 语言作者亲自撰写,针对 Lua 语言本身由浅入深地从各个方面进行了完整和细致的讲解。作为第 4 版,本书主要针对的是 Lua 5.3,这是本书撰...

¥89.00