《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文之后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。
译者序
2010年2月,春节将至,我向博文视点的某个邮箱寄出了一封请求参加翻译任何一本图书的邮件。很快,有人
回信了,内容简单明了:请下载并试译第1章1~17页内容。落款是博文视点编辑徐定翔。于是我试译,寄出,然后
等待。春节过去了,一切都从节日的慵懒中苏醒过来——包括我的试译结果——它来了:通过。合作事项很快商定,
工作就这样开始了。
如今已是2010年8月,稿件已如期交付,按照出版惯例,我可以占用一点篇幅,谈谈这本书。
正如O’Reilly出版社的Head First系列的其他图书那样,本书在语言组织、排版设计方面非常有特色,用“新颖”
二字形容毫不为过,用“周到”二字形容也十分妥当。
其构思跌宕起伏,其行文妙趣横生,无论读者是职场老手,还是业界新人;无论是字斟句酌,还是信手翻阅,
相信都能跟着文字在职场中走上几回,体味数据分析领域的乐趣与挑战。一本技术图书,在传道授业之外,又为读
者送上了章回小说的精彩。
这些设计巧妙的“章回”生动地向读者展现了数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝
叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧,此后意犹未尽,
又以3篇附录介绍数据分析十大要务、R工具及ToolPak工具,在尽情展现目标知识以外,为读者搭建了走向深入研究
的桥梁。
与我们司空见惯的很多书籍不一样,本书更愿意引导读者进行思考,而不愿向读者灌输现成的条条框框去禁锢
读者的想象空间。在本书点到即止的启发下,读者很有可能跃跃欲试,急不可待地要把目光投向更宽、更深的知识
领域,发掘更多的数据分析知识,以便早日成为数据分析达人。
文章字里行间流露出作者传道授业的热忱,以下仅举两例:
一是设法克服术语的障碍。这一点,英语使用者恐怕比中文使用者体会更深,层出不穷的英语术语甚至让以英
语为母语的读者感到厌倦和头痛,作者深知这一点,于是尽量用浅显的语言表述,解除英语读者的心头之患;至于
中文,感谢祖国语言的优秀特性,倘若作为译者的我没有在这里帮倒忙,术语方面的问题甚至可以忽略不计了(为
方便读者审评,部分术语翻译对照表可在此下载:http://images.china-pub.com/ebook195001-200000/197047/shuyu.pdf)。
二是设法实现理论与实践的转化。理论如何向实践转化,一向是学习者的难题。然而本书精心构思的“章回”
体裁,却让理论知识与实际操作水乳交融,职场气息扑面而来,除了谈分析,作者也谈经济、谈局势、谈心理、谈
做人,涉猎广泛,面面俱到。
能够理解,作者希望这本书成为读者书架上的常备手册,在读者走进数据分析领域之初,或是遇到从业疑难时,
提供力所能及的帮助。我也如此希望。
最后,请容我借本序致谢:
感谢博文视点。
感谢徐定翔编辑对我的信任和指教。
感谢家人对我的理解和支持。
李芳
2010年8月
I
序言
如何使用本书
序言
本节回答一个热门问题:“作者为什么非要把
这些东西写进一本讲数据分析的书里?”
真难以相信,他们竟
把这些东西写进讲数
据分析的书里了。
序言 I
如何使用本书
II 深入浅出数据分析
谁适合阅读本书?
谁该和本书说拜拜?
请先回答几个问题:
请先回答几个问题:
如果以上问题全部回答“对!”——这本书适合你。
只要有一个问题回答“对!”——你与本书无缘。
[营销部捎话——只要有信用卡
就可以买书哦。]
你喜欢笑语喧哗的晚宴甚于枯燥、无聊的学术演讲,对
吗?
3
你想学习、理解和记忆如何创建靓丽的图形、试验假设
条件、进行回归分析或整理混乱的数据,对吗?
2
2 你从未用过Microsoft Excel或OpenOffice calc,对吗?
你觉得,数据中隐含了无穷的智慧,只要有合适的工
具,就能利用这些智慧,对吗?
1
你是一个经验老道的数据分析师,正在调查数据分析
领域最前沿的课题,对吗?
1
你惧怕尝试新事物,宁可上山打虎也不愿标新立异,对
吗?你认为要是用拟人的手法叙述控制组和目标函数,
技术书籍就难免有失严肃,对吗?
3
序言
序言 III
“这怎么能是一本严肃的数据分析图书呢?”
“这些图都是用来干嘛的?”
“我真能这样学数据分析吗?”
你的大脑渴望新事物。大脑总是不停地搜索、探查、等待不同寻常的事
物,它天生如此,这正是你活力的来源。
那么,大脑怎么对待你所碰到的常规、普通、一般的事情呢?——
它会竭尽全力阻止这些事情,以免干扰自己真正的工作——记录重要事
项。大脑不会费力保存这些琐事;这些琐事从来不会成功地闯过“明显
不重要事项”的关卡。
你的大脑如何知道哪件事重要?假想有一天你出门旅行,迎面扑来一
只吊睛白额大虎,你的头脑和身体会有什么反应?
神经元发动……情绪激动……化学物质激增
于是,你的大脑知道——
这事绝对重要!记住!
但,想像你是呆在家里,或者是呆在图书馆里,也就是说,是在一个安
全、温暖、没有老虎的地方。
你正在复习迎考,要不然就是在努力弄明白一些艰深的技术,你的老板
认为花个把星期就能搞定,顶多十天。
唯一的问题是:你的大脑想好好帮你一把,它试图保证不让
这种“明显不重要”的内容去破坏珍稀的资源,这些珍稀的资源
最好用来保存真正“重大”的事情,像老虎啊,像火灾险情啊,
像你绝不该在大学生网站Facebook的网页上贴上那些聚会照片啊。
没有什么便当的办法可以告诉大脑“喂,大脑,我对你感激之至,
可惜啊,不管这本书多无聊,也不管我的情感地动仪如何纹丝不
动,我真的希望你把这些材料都记住。”
我们了解你在想什么
我们了解你的大脑在想什么
你的大脑觉得这很
重要。
你的大脑觉得这
不值一提。
行啊。
才不过490页而已,
这些枯燥、无聊、
烦人的内容。
既然要学习,怎样才能学会呢?首先,你得搞懂, 然后,切勿遗忘;一字一句硬塞不是
办法。根据最新的认知科学、神经生物学及教育心理学研究结果,学习远不仅仅是读书认
字。Head First 知道怎么让你的脑筋动起来。
下面是部分深入浅出(Head First)教学原则:
将知识图形化。图形比单调的文字好记得多,可以提高学习效率(记忆学习
和转移学习的学习效率最多能提高89%);图形还能让知识更容易理解,相
比将文字放在页脚和下一页,将文字放在相关图形当中或图形周围,学习者
成功解决相关问题的可能性将成倍增长。
采用对话式的个性化风格。最近的研究表明,要是回避一本正经的语气,代之以对话般的风
格,以第一人称平易近人地给学生上课,学生的课后测验成绩最多可提高40%。多讲几个故
事,少来一点高谈阔论,语气宜随和。别太郑重其事。想想看,一局笑语喧哗的晚宴和一场
演讲,哪一样更让你惦记?
引导读者深入思考:换句话说,除非读者主动调动自己的神经元,否则脑
袋里不会发生什么大变化。只有激发读者的兴趣,引起读者的好奇,刺激
读者的灵感,读者才能解决问题,得出结论,获得新知识。为此,讲授者
要设计各种难题、练习,提出引人深思的提问,还要多让读者做一些让
左右脑半球和多种感官都动起来的活动。
牢牢吸引读者的注意力。大家都有这样的体验——“我是真想学,但看
完第一页就晕了”。大脑注意的是不同寻常的、有趣的、奇怪的、引人注意的、
出人意料的事情。学习一种新颖艰深的技术不一定非得枯燥不可,如果它不是
这样乏味,大脑会学得更快。
影响读者的情感。现已知道,人的记忆能力在很大程度上取决于要记忆的
内容对情感的影响。我们关心什么,就会记住什么;我们对什么事有感
觉,就会记住什么。这里讲的情感并非天灾人祸给人带来的撕心裂肺的
伤痛情感,而是惊讶、好奇、感觉有趣、想追根究底之类的情感,以及
在猜对一个字谜、在学会别人感觉难以学会的事情或是在意识到自己懂
的东西居然比工程部那位开口闭口“我比你有技术”的张三还多时,油
然而生的“我是老大”的感觉。
我们认为该系列图书的读者都是学习者。
IV 深入浅出数据分析
如何使用本书
序言
序言 V
元认知:对思考的思考
怎样才能让我的大
脑记住这些资料呢?
如果真想学东西,而且想学得更快更深入,就要关注自己如何集中注意
力。要思考自己的思考方式;研究自己的研究方式。
大多数人在成长过程中都不曾学习元认知和学习理论方面的知识。人们
期望我们学知识,但极少有人教我们如何学。
但想象得到,捧着本书的你,的确想学习数据分析知识,同时可能不
想花费太多时间。要想利用在本书中读到的知识,就得记住读过的知识,为
此必须理解这些知识。为了淋漓尽致地发挥本书或任何书本或学习经验的作
用,请管好你的大脑,请管好大脑对待本书的态度。
诀窍在于让大脑把正在学习的新资料当做“正经大事”——对幸福至
关重要的大事,像老虎一样重要的大事。若非如此,你就会陷入一场持久
战:你竭力要记住新知识,大脑却竭力要把这些新知识踢出去。
既然如此,如何让大脑像对待吃人的老虎一样对待数据分析知识呢?
有两种办法,一种缓慢而乏味,一种迅速而有效。慢办法是简单记
忆。你显然明白,只要不停地把同样的东西往大脑里灌,即使是最乏味的知识,也
能学会、记牢。只要重复灌的次数足够多,大脑就会想:“这些东西给他的感觉并不
重要,但他不停地看这些相同的东西,一遍,一遍,再一遍。因此我猜这些东西肯定
很重要。”
快办法是做一切增进大脑活动的事,尤其是不同类型的大脑活动。上一页讲了很
多这样的活动,事实证明,这些活动全都能促使大脑以有利于己的方式工作。例如,
研究表明,将文字放在文字所描述的图片当中(相反的做法是将文字放在页面中的其
他位置,如注释位置或正文位置),会促使大脑努力搞清楚文字和图片之间的关系,
进而发动更多神经元。更多神经元发动 = 更有机会让大脑明白某件事值得注意,可能
还值得记住。
对话式的写作风格对此很有帮助。人们在与人对话时注意力会更集中,原因是别人
期待他们有所表现。令人惊讶的是,大脑不一定会在意“对话”是在人和书之间进行!
反之,要是写作风格了无新意,乏味枯燥,大脑的感觉就和在挤满消极听众的屋子里
听演讲没什么两样:没必要保持清醒。
不过,图形和对话式风格只是起步……
如何使用本书
VI 深入浅出数据分析
我们的做法
我们使用丰富的图片,这是因为,大脑追逐图像,而非文字。在大脑的活动中,一张
图片胜过千言万语。当同时使用图片和文字进行说明时,我们将文字填写在图片当中,当
文字出现在它所描述的事物当中时,大脑的工作更有效率;相反,若将说明性文字放在注
释或其他正文当中,则无此效果。
我们使用反复论述法,即以不同的方式、通过不同的媒介对同一主题进行反复描述,
给读者营造丰富的感受,目的是让这些主题有更多机会印在大脑的多个区域。
我们以出人意料的方式叙述概念和使用图片,因为,大脑追逐新鲜事物;我们在图片
和创意中或多或少加入了一些情感性的内容,因为,大脑关注情感的生物化学反应。让人
有所感触的东西更可能让人记住,即使这点感触不过是一丝幽默、一丝惊讶或一丝兴趣。
我们使用个性化的对话式写作风格,因为,当大脑认为你是在进行对话而不是在消极
地听报告时,就会调整到注意力更集中的状态。即使在读书时,大脑也是这个习惯。
我们安排了80多个活动,因为,相比读书,在做事时,大脑经过调整,能学会和记住
更多东西。我们安排的练习有难度,但不会让人束手无策,这正是大多数人愿意做的练习。
我们使用多种教学风格,因为,有的人可能喜欢一步一步按顺序来,有的人可能喜欢
先看懂大图,还有一些人可能只想看看例子。我们将以多种方式反复讲述相同的主题,不
管读者的个人爱好如何,他们都将因此受益匪浅。
我们安排了让左右脑半球分别负责的内容,因为,大脑开动部位越多,就学得越多,
记得越多,注意力更持久。由于一侧大脑工作往往意味着另一侧大脑得到休息,左右半脑
的分工合作使得长时间学习的学习效率得到提高。
我们还安排了一些场景和练习,在场景中展现不同的观点,因为,当大脑被迫进行评
估和判断时,会调整到深入学习状态。
我们在练习中安排了一些难点,即提出一些无法简单回答的问题。因为,你的大脑在
不得不处理某件事情时,会调整到学习和记忆状态。开动脑筋吧,“光看别人做运动无法
让自己体态健美”。别担心,我们尽力保证,你努力学习的都是该学的,你不会为了对付
一个费解的例子或为了分析一段用词过于晦涩或行文过于简练的段落而多用一个脑细胞。
我们以人物为例,把人物安排在场景、实例、图片等内容中。至于原因嘛,因为你是
人群中的一员啊,你的大脑对人比对事更关注。
序言
序言 VII
我们的工作到此为止,剩下的就看你的了。从下面这
些提示出发,顺从大脑的判断,看看哪些对你有用,哪些
对你没用,尝试一下新事物吧。
6 大量喝水。
充沛的体液会让大脑处于最佳工作状态,脱水(早
在感到口渴前就会发生)则会让认知功能下降。
9 勤加练习!
学会数据分析的唯一办法就是勤加练习,这正是本
书的要求。数据分析是一门技术,精于此道的唯一
办法就是大量实践。本书将给你带来大量实践机
会:每一章中都有一个等待你解决的问题,千万别
跳过这些问题不看——大量学习都发生在解决问题
的过程中。我们为每一个问题提供了答案,要是卡
了壳(有些细微之处很容易给人带来麻烦),别不
敢看!不过,请尽量先解决问题再看答案,务必让
你的办法行之有效,然后才继续看书中的下一部分
内容。
8 找到感觉。
大脑需要知道事情是否重要。让自己融入各种场
景,为照片设想旁注,就连抱怨一个并不好笑的玩
笑,也比什么感觉都没有强。
7 聆听大脑的声音。
留意你的大脑是否超负荷工作。若你发现自己开始
心不在焉,或者刚刚读过的东西转眼忘记,就该休
息。一旦过了某个学习点,哪怕拼命塞,也无法提
高学习效率,反而有可能影响学习。
5 开口大声讨论。
说话会刺激大脑的其他部分。如果你正在努力理解
一些知识,或者正在努力增加以后记住这些知识的
概率,请大声说出这些知识。还有一种更好的做法,
试着向别人大声解释这些知识。你会学得更快,可
能还会发现一些阅读时不曾发现的名堂。
4 请将下面这段话作为最后一段床头阅读文字,或起
码作为最后一段高深的床头阅读文字。
有一部分学习过程(尤其是短暂记忆转变为长期记
忆的过程)发生在放下书本之后,大脑需要有自己
的时间进行更多处理。如果在这段处理时间内学新
东西,将会丢失一些刚学会的东西。
3 阅读“世上没有傻问题”部分。
世上没有傻问题。这些问题并非可看可不看,这是
核心内容的组成部分!请勿忽略。
把这张图剪下来,贴在
冰箱上。
你的任务:征服大脑
2 自己做练习,自己记笔记。
我们安排了练习和笔记,但是,要是我们替你完成,
就像让别人替你锻炼身体一样;只动眼不动手也不
可取,要动动笔。大量证据证明,学习时的身体动
作能提高学习效率。
忌死读。停一停,想一想,碰到书中的提问时,别直
接翻看答案;想象真的有人在问你这个问题。强迫自
己的大脑想得越深,学会、记住的概率就越大。
慢1 慢读。理解的内容越多,要记忆的内容越少。
如何使用本书
VIII 深入浅出数据分析
自述
本书是经验之谈,并非参考书籍,我们故意抽掉了会妨碍讲述书中相关知识的东
西。本书对你已经见识过和学习过的知识作了一些假设,因此第一次通读本书的时候,
需要从头读起。
本书并非软件工具指导书。
许多以“数据分析”为题的图书都是顺着Excel函数表把认为和数据分析有关的部分
一路讲下去,然后针对每个函数给几个实例。但《深入浅出数据分析》讲的是如何成为
数据分析师,尽管你在本书中会学到相当多的软件工具,但它们不过是手段而已,目的
是学习如何进行出色的数据分析。
我们希望你懂得如何使用基本的电子表格公式。
用过电子表格的SUM求和公式吗?要是没用过,你可能先要突击一下才能开始学习
本书。尽管许多章节根本不要求使用电子表格,但其他有此要求的章节却假定你会使用
各种公式。要是熟悉SUM工具,那么你基础不错。
本书超越统计学。
本书充满统计知识,作为数据分析师,你应该尽量多掌握一些统计知识,读完《深
入浅出数据分析》之后,最好再读一读《深入浅出统计学》(Head First Statistics)。不
过,数据分析不仅涵盖统计学,还牵涉许多其他领域,本书中选用的非统计题材主要用
于讲解来源于现实生活的具体、实用的数据分析经验。
活动并非可做可不做。
练习和活动不是点缀,而是本书的核心组成部分。这些练习和活动有的是为了帮助
记忆,有的是为了帮助加深理解,还有的是为了帮助应用所学知识,切勿忽略。
序言
序言 IX
反复论述是刻意而重要的安排。
深入浅出系列图书有一个明显特色:我们希望你真正掌握学到的知识,我们希望
你在看完本书的同时就记住学到的知识。大多数参考书都不把记忆和回忆当做一个目
标,但本书的目标是学会,所以,常常会看到同一概念多次出现。
本书意犹未尽。
我们乐于看到你在书籍合作网站上找到更多实用而有趣的资料,下列网站可为你
提供这些资料:
http://www.headfirstlabs.com/books/hfda/.
“动动脑”练习没有答案。
有一些“动动脑”练习没有标准答案;另有一些练习可以参考“动动脑”活动的
学习经验部分判断自己的答案是否正确,以及在什么情况下会正确。部分“动动脑”
练习给出了提示,为你指明正确方向。
如何使用本书
X 深入浅出数据分析
Eric Heilman,美国乔治敦大学沃尔什外交学院优秀毕业生,国际经济学学位。在哥伦比亚特区读大学期间,
曾在美国国务院和白宫国家经济委员会工作。他在芝加哥大学完成经济学毕业论文,目前在位于美国马里兰州贝塞
斯达(Bethesda)的乔治敦大学预备学校任统计分析和数学教师。
Bill Mietelski,软件工程师,三度担任深入浅出(Head First)技术顾问。他急不可待地想给自己的高尔夫技
术做个数据分析,好在球场上一领风骚。
Anthony Rose,在数据分析领域从业近十年,目前任Support Analytics公司总裁、数据分析及图表顾
问。Anthony拥有财务与管理专业工商管理硕士学位,他对数据分析的热爱由此开始。工作之余,他常常出现在马
里兰州哥伦比亚市的高尔夫球场上,陶醉在好书中,品味着美味的葡萄酒,或者和年幼的女儿们及迷人的妻子一起
消磨时光。
技术顾问:
Bill Mietelski
Tony Rose
Eric Heilman
技术顾问组
技术顾问组
序言
序言 XI
致谢
Brett McLaughlin
我的编辑:
Brian Sawyer,一位不可思议的编辑。和Brian一起工作就像和舞蹈
家共舞,各种各样重要的工作纷至沓来,虽令人不十分理解,看上去却很
不错,让人干得兴高采烈。我们的合作振奋人心,他的支持、反馈和创意
是无价之宝。
O’Reilly团队:
Brett McLaughlin一开始就看到了这个项目的前途,引领项目走
过艰难岁月,始终如一地支持项目。Brett孜孜不倦地强调你对深入浅出
(Head First)书籍的体验,让人备受鼓舞。 他运筹帷幄。
Karen Shaner提供后勤支持,在剑桥寒冷的清晨给我们带来很多快
乐。Brittany Smith贡献了一些非常棒的图形元素,供我们反复使用。
给我启示的睿智者:
本书有大量出色的创意,许多创意在以“数据分析”为题的书籍
中颇不常见,但这些创意很少是我个人的独创。我从Dietrich Doerner、
Gerd Gigerenzer、Richards Heuer、Edward Tufte等超级智星的的作品中汲
取了大量经验。把他们的作品统统读一遍吧!“反查”(anti-resume)这个
创意出自Nassim Taleb的《黑天鹅》(真希望他出第二部,带来更多创意);
Richards Heuer好心地给我回信讨论本书,还给我出了很多有用的主意。
朋友与同事:
感谢Lou Barr为本书提供知识产权、职业道德、逻辑学及美学支
持;Vezen Wu给我讲解关系模型;Aron Edidin在我大学求学期间曾赞助
我学习一门超棒的情报分析课;我的牌友Paul、Brewster、Matt、Jon和
Jason给我上了关于均衡使用启发法和最优化决策法的昂贵一课。
离开这些人我没法活:
技术顾问组工作出色,他们揪出成堆的错误,提出大量建议,给予
我巨大支持。在本书撰写过程中,我对一位心思缜密的统计师——我的
朋友Blair Christian依赖甚深,书中每一页都能看到他的影子。谢谢你
为我做的一切,Blair。
我的家人Michael Sr.、Elizabeth、Sara、Gary和Marie给了我巨
大的支持,尤其要感谢我的妻子Julia的坚定支持,她是我的一切。谢谢
我的全家!
Brian Sawyer
Blair与Niko Christian
Julia Burch
第177页,P(L|+) 表述与前面的P(+|L)不一致,建议纠正
建议对比英文原版一起看。
运行 R 尝试加载 source(”http://headfirstlabs.com/books/hfda/hfad.R") 总是报错,
Excel中安装的数据分析工具按照附录中提供的方法,路径中没有找到analysis toolpak和solver两个插件啊。求详细安装方法,感谢
第四章P133第一问应为“网页加载快是主页3表现最佳的原因么”。。为什么这都能翻译错。。