面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。
本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。
由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。
统计分析老兵多年潜心编写,业务视角的统计思维,从小数据到大数据,厘清数据分析的技术脉络,并深入解读了统计算法和机器学习
丁亚军
自由职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。
研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。
前 言
统计分析是基于大数据的商业智能分析、机器学习等多项技术的基础,同样也是训练大数据思维的理论基础。
每种技术既有优点,又有缺点。为了弥补传统统计方法的不足,人们引入了数据挖掘算法。不管是算法、应用,还是数据探索,基于不同的方法体系都将产生不同的方法论,本书以此为基础,探讨小数据和大数据的核心区别,以及由大数据引起的算法“进化”。
内容特色定位
本书内容具有如下几个重要的特征。
• 从运营报告开始了解业务环境,进而建立业务视角的统计思维,如将业务问题转化为统计问题、数据项目落地、共享模型价值等。
• 通过强调应用统计和理论统计的区别和联系,进一步讲解应用统计工作者应该如何梳理业务关系、学习统计模型等。
• 从小数据到大数据,厘清了数据分析的技术脉络,包括:模型预分析和修正;算法的“进化”,从1.0 到4.0;统计算法和机器学习的深入解读。
• 案例学习模块化和流程化。其中,模块化表现为统计的家族特征,如每种模型在家族中有什么表现、继承了什么样的算法优势;流程化表现为从小数据到大数据的算法,对应不同需求而设计的分析流程。
• 本书试图搭建统计与机器学习间的基础理论桥梁,使读者了解算法的“进化”过程,从而掌握每次进阶学习的核心信息,跨越进阶障碍。
读者定位
鉴于对统计算法和大数据算法的探讨,本书比较适合如下几类人群阅读。
(1)经常与数据运营或运营报告接触的业务人员。
本书能够帮助业务人员理解数据特征,看懂运营报告,掌握常见的数据可视化工具,使用数据语言进行业务沟通和交流,并能够提高业务人员的数据化思维,使其尽快成长为业务能手。数据运营人员和数据管理人员经常与数据打交道,他们需要知道如何将数据转化成商业价值——量化需求、寻找影响因素、工具归因、数据可视化。
(2)数据分析入门者或想转行成为数据分析师的读者。
初学者最重要的是训练统计思维,这需要初学者搭建业务框架、训练角色意识、提高审查数据的量化标准、识别数据行列模式、学习应用统计、了解统计的商业价值评估、熟悉统计解释等。本书站在初学者的视角,立体地呈现出这些必要的知识,并以案例和固定操作流程的方式展现给大家,尽量使专业的知识简易化。
(3)机器学习从业者或机器学习初学者。
大数据的温床孕育了机器学习等人工智能算法,这是大数据模式下的全新技术。小数据与大数据产生于不同的应用环境,所以小数据和大数据的算法区别是:对数据是总体分析还是个体分析、数据信息的分布是宏观的还是微观的,等等。两类算法各有千秋,甚是不同。
学习建议
建议读者将第1 章和第2 章涉及的业务思维的讨论按顺序读完。
关于第3 章,数理统计基础偏弱的读者可以直接越过与数理统计有关的内容,这样做并不影响对第3 章内容的理解。建议阅读完第3 章后直接阅读第7 章和第8 章,这样可以更好地理解全书内容,并可以完善读者对数据分析流程的学习。数理统计基础较好的读者,按顺序阅读本书即可,无须跳转。
第4 章线性回归与统计家族作为读者学习的重点,建议读者在阅读的同时跟着案例和流程进行操作。此外,建议学习第5 章Logistic 回归与统计家族时,将其中的知识点与第4 章的知识点对应起来,并回答两个问题:线性回归如何解读?线性回归如何应用?
第6 章降维技术中的主成分回归是重点内容,通过学习本章内容,读者可以体验多变量技术的案例应用及其业务、统计和可视化的整合过程。
针对本书行文内容有以下几点补充说明:
• 本书侧重于商业案例的应用,为了便于初学者理解,可能有些词汇具有个人习惯倾向,并不一定严格符合科学术语。
• SPSS 中文版有诸多翻译不足之处,但为了迎合读者的语言习惯,本书仍使用中文版对应的翻译,但会有相应注解。
• 本书涉及从小数据到大数据的方法论,为了行文方便并遵循习惯叫法,正文涉及的大数据模型称为数据挖掘模型,小数据模型称为统计模型。
致谢
本书成稿历时3 年有余,其间反复修改,甚至有停下来的想法,不过最终还是在数百个寂静的清晨后完成了书籍撰稿,在此期间不断激励我的是我的父亲,从构思到撰写,他都给予我极大的鼓励,在此表示感谢。在生活中,妻子和岳母对家庭及小宝的悉心照料,使我能够如约完稿,在此对她们表示感谢。
此外,感谢亲友丁凤萍、丁敏、徐强、丁飞等对我的支持和鼓励。
感谢赵坚毅老师,不辞辛苦提供指导意见,并为本书作序。
本书在修改过程中,尤其感谢电子工业出版社的张慧敏老师及其同事的悉心指导。
本书部分内容受到在演讲和主题研讨时学员提问的启发。因此,感谢学员对本书的期待和贡献。最后,因本人学识浅陋,行文内容难免存在不足之处,望读者不吝赐教。
说明
书中部分插图由于为软件生成图,所以图中变量显示为正体。
丁亚军
我是学统计的,看了本书,觉得本书写得非常好,好在与时俱进,连接了统计与最新的算法,关键特色:从数据准备开始,一步步进入统计,进而算法。五星好评,值得推荐!有电子版和课件吗?准备给学生用这个教材开门课。
有电子书能下载吗
不错不错
great book
great