《R统计与数据可视化:社会科学数据分析实践(全彩)》的基本理念是通过上手操作来学习。学习统计学以及数据分析的艺术与实践的最好方式,就是进行数据分析。本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式。本书适合数据分析初学者,也适合有经验的数据分析人员。
本书的主要目的是鼓励、启发和激发学生在社会科学领域进行数据分析。使用了简单的图形技术,并提出了有趣的数据问题。并重点放在用于解读隐藏在回归分析背后的方法和思路,教会读者熟悉数据分析技术并开发适合自己的数据分析方法,深入理解概念,从分析方法,甚至是哲学上做选择。激发读者对企业的兴趣,面对真实的世界和真实的数据。
作者简介
David S. Brown(戴维·S.布朗):科罗拉多大学博尔德分校政治学教授和社会科学系主任。获得了加利福尼亚大学洛杉矶分校的政治学博士学位,并且是科罗拉多大学博尔德分校行为科学研究所肯尼斯·博尔丁(他开辟了多个经济学和社会科学研究领域)的首届博士后研究员。在加入科罗拉多大学政治学系之前,他曾在莱斯大学担任助理教授。他研究的是比较政治学,侧重于体制及其对经济发展的影响。他的研究成果已发表在《美国政治科学评论》(American Political Science Review)、《美国政治学期刊》(American Journal of Political Science)、《英国政治学期刊》(British Journal of Political Science)和《美国地理学家协会年鉴》(Annals of the Association of American Geographers)上。
译者简介
李嘉平:曾在华大基因从事生物信息分析相关工作,目前就职于广西医科大学第一附属医院(广西心脑血管疾病防治精准医学重点实验室)。他是R布道师,希望能够通过翻译传播和推广R的应用与价值;亦是R铁杆用户,具有丰富的生物信息分析经验,擅长使用R和Python进行各类数据处理以及数据可视化。曾负责生物信息培训中所有R相关课程的设计与授课。对新技术始终抱有极大的热情,喜欢去体验那些目前仍不完善但有前景的新技术,并享受这个过程带来的乐趣与启发。
本书旨在鼓励、启发和激发学生对社会科学数据分析的兴趣。其根本前提是学生通过做数据分析来学数据分析。为此,本书从简单的图形工具开始,探索数据并对数据提出有意义的问题。重点是用于发现深埋于回归表整洁外表之下的问题的那些方法。最后,读者会熟悉基本的数据分析技术,并形成数据分析方法,理解所做出的概念、分析乃至哲学的选择。在我看来,一个重要的目标是激发读者对所做事情的兴趣。本书的案例旨在让我们用真实的数据来面对现实世界的议题和问题。数据下载完成后,确保在开始前执行installD() 和libraries() 指令,第一个指令安装所有需要用到的包,而第二个指令加载这些包。installD() 指令只需要执行一次;libraries() 指令需要在每次重新启动R 后都执行。
本书为谁而写
本书面向多种读者,但主要还是为初学者准备的。本书假设读者事先没有统计学或微积分的相关知识,而扎实的统计学或微积分背景并不会使这些练习毫无收获。本书源于我在科罗拉多大学教授的大型课程——“定量方法导论(Introduction toQuantitative Methods)”。这是政治学专业学生的必修课,学生需要阅读、理解并审慎地考察越来越多的定量证据。我们真诚地希望在课堂上用一套技能武装学生,帮助他们解决问题。
数据分析师使用R 就像生物学家使用电子显微镜一样,这种面向对象的统计语言已经被广泛使用,主要是在数据科学家中间站稳了脚跟。虽然从教学的角度来讲,用纸笔学习统计学令人赞赏且有好处,但在这个大数据时代,学生必须掌握最先进的工具。本书充分为读者考虑,读者可下载配套数据并跟着一起做。这套代码根据我的经验提供了一组优秀的指令,初级、中级和高级的分析师都能用上。
对于那些经验更丰富的读者来说,本书提出了一种方法,强调简单的分析如何通过描述、理论和证据之间的来回往复迭代产生更好的议题。本书鼓励提出假设,查看证据,然后由这些证据产生新的假设。在我看来,为了提出下一个议题而构建假设时,读者就会展现出对案例的深刻理解。比起学习代码,比起理解概率论,本书设法形成一个永无止境的发现循环,体现为描述我们之所见,提出假设,根据经验检验它,然后产生下一个议题或假设。从这个意义上讲,即使是技术能力较高的读者,也能从中受益。
组织
大多数统计学教材都是从概率论的基础知识开始的,然后是抽样和假设检验,最后是相关性和回归分析。虽然概念上是连贯的,但学生首先要在学期之初克服对概率论的恐惧,必须解读标准正态分布表或t-分布表,然后在最后两周掌握二元或多元回归分析。这里存在两种思想流派,本书兼顾两者。一些人坚持认为,支撑回归理论的概率基础必须出现在首条数据拟合线之前。另一些人喜欢一开始就拟合曲线,构建模型。他们认为,学生只有在面对构建模型、生成估计以及评估模型拟合的挑战之后,才会有强烈的动机去理解用于生成t-比率、R2 统计量和置信区间的概率机制。
本书的设计是:在描述数据和进行比较之后,可以跳过第8章和第9章,直接进行回
归分析。关于诊断的章节,为支撑线性回归的高斯- 马尔可夫假设提供了直观的感受。还有一章专门介绍数据的展示(第7章)。如何向受众展示发现,往往连这样最基本的原则我们都不肯花时间。我将爱德华·塔夫特(Edward Tufte)的开创性工作与一些侧重于叙事过程的资料结合起来。
在掌握了多元回归分析的机制后,本书以逻辑回归作为结束——社会科学中的许多问题都涉及二元选择(是否投票)、所处的二元状态(是否大学毕业)以及二元环境(是否住在某个城市)。鉴于社会科学中这些问题的重要性和普遍性,本书会向学生介绍逻辑回归,如何分析以及报告其结果。
基本理念
在学术生涯的早期,我受到了我非常敬重的两位资深学者之间的争论的影响。我不记得主题了,但那是在两位教授的研究生研讨会上。当我们着手评估和审查一篇指定的文章时,其中一位教授显然介意其缺乏理论的严谨性。论文的论点似乎在随着每个新证据的出现而改变。面对论文中一个相当明显的事后推理的实例,两位教授开始争论这篇文章到底有没有做出什么贡献。虽然两人关系很好,但争论非常激烈,当其中一人强调“我不相信为了符合事实而不断改变理论的工作!”的时候,争论达到了顶点。我们等待着回应,房间里变得鸦雀无声。沉默片刻后,另一位教授笑着反讽道:“我不相信为了符合理论而不断改变事实的工作!”
正是如此。那天,关于如何打磨我的技艺,我的脑海中画出了清晰的线路。意识到“事实”从来都不是独立于我们的理解、背景和生活经历之外的,对我而言,这比用来解释它们的理论更为坚实。
话虽如此,我们还是得从某个地方开始,在我看来,最好的数据集是用有意义的、强效且重要的理论和问题构建的。因此,就像警察队长(《龙虎少年队》中由艾斯·库伯饰演)告诫下属(查宁·塔图姆和乔纳·希尔饰演)先打入毒品贩内部,然后找出供货商一样,本书鼓励学生先提出一个假设,然后根据经验去检验它。最后,关于社会科学是一种推演过程还是数据挖掘工作,本书不参与这场论战(毕竟,查宁·塔图姆确实问过他的队长,他们能否直接先找到供货商)。介于推演过程和数据挖掘工作之间,我希望能证明最好的实证研究有赖于二者之间开诚布公的讨论。