对照实验

有了数据来源，有了抽样方法这还不够有力，还需要一些其它的方式来帮助人们识别认知对象的差异与差异来源，这就用到了对照实验。对照实验是一种统计研究的方法，在互联网领域以及其它涉及大量服务对象的行业中会倾向使用一种叫做“AB测试”的对比方式，其实就是统计学中的对照实验。
对照实验的思想方法很简单，将观测对象分为两个组A和B，A称为实验组，B称为对照组。在实验过程中有意识地改变某个变量的情况（例如变量x），然后看另一个变量变化的情况（例如变量y），这个动作的施加是在实验组上进行，而对照组不做这种动作施加。通过一段时间后对比实验组和对照组中的个体对象是否体现出差异——就是刚刚说的这种变量y的差异是否存在。一般来说两个组在整个实验过程中的环境变化要是一致的以尽可能消除其它因素的影响。
比如药品的临床测试，有很多新药要测试其是否真的有效，或者其药效是否比其他药效要好，通常采用的叫做“随机对照试验”（Randomized Controlled Trial，简称RCT）。也就是将病患分为两组，然后一组给药一组不给；如果是对比两种药物的话，那就是一组给待测药一组给另一种同类对比药物，在疗程结束后对比治愈率。为了避免人为情绪化因素以及个别样例的特殊反应对测试结果的影响，又进化出一种叫做“大样本随机双盲试验”的办法，算是对“随机对照试验”的进一步科学化的诠释。
有关“大样本随机双盲试验”的特点是：
第一、大样本，样本量加大会稀释个别样例特殊反应对统计结果的影响，这种做法也就是统计学中所说的避免“过拟合”；
第二、双盲，就是让病患和医生都对药品和分发对象事先不知晓，让所有人都在这个被他人安排好的测试旅程中一步一步进行试验，直到最后再去对比测试的结果。这样就避免了在人与人接触的过程中由于主观情绪掺杂在交谈里引起的一些难以把握的因素。比如，医生如果主观上对这种药不看好，或者主观上认为这种药效果不错，在交谈的过程中或多或少会有情绪上对病患的暗示，那这种暗示对于治疗配合程度的影响会干扰测试结果。治疗结果好或不好，我们就说不清究竟是药品真的很管用，还是其中有更多“安慰剂”的成分。双盲同样是为了保证刚刚所说的“实验过程中的环境变化要是一致的以尽可能消除其它因素的影响”。

早在17世纪初，英国海军就试图运用实验法找到坏血病的起因。当时，在海上长期航行的水手们面临坏血病的威胁。得了这种病，皮肤上有青灰斑点，牙龈大量出血。1747年詹姆斯·林德在船上做了一个很著名的实验，有12个严重的坏血病海员，大家都吃完全相同的食物，唯一不同的药物是当时传说可以治疗坏血病的药方。两个病人每天吃两个橘子和一个柠檬，另两人喝苹果汁，其它人是喝稀硫酸，酸醋，海水，或是一些其它当时人认为可治坏血病的药物。6天之后，只有吃柑橘水果的两人好转，其它人病情依然。1748年，他以优异成绩获得爱丁堡大学医学博士学位后，回到海军任军医。
在这项实验中，吃柑橘和柠檬的水手们构成了实验组，吃和苹果汁的水手和使用其它“偏方”的水手们构成了对照组。需要对照组的原因是，若没有对照组，就无法判定刚才我们说的A项是否对B项产生影响。一个好的实验设计都有一个实验组和一个或多个对照组组成，这个方法广谱而有效，是一种很好的认知方式。
如果我们要回退到1747年去帮助英国海军设计这个实验的话，同样也要注意。就是这三个对照组的人应该尽量随机，比如在实验的过程中应该考虑他们对饮食的偏好。在实验组和对照组中都应该放入喜欢吃橘子柠檬和不喜欢吃橘子柠檬的两类人，而且数量比例应该一样多。那么这种情况下，起码是可以避免由于喜好问题导致的因素所影响的疗效不同。
一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。所谓匹配是指对实验单位的背景材料进行分析比较，也就是和我们刚刚的假设那样，将情况类似的每对单位分别随机地分配到实验组和对照组。例如，我们前面提到的“大样本随机双盲试验”会尽量让接受实验的患者按照年龄、性别、病情等变量匹配后分别分到实验组和对照组。这样在不同组的患者有大致相同的背景。
但是，我们必须要注意一个问题，那就是实验的理想程度越高实施成本也就越高。这是一个实验可信性程度与成本的平衡性问题。在一个实验中，对照组样本的“背景”究竟是一个什么样的范畴，这个问题需要我们认真考虑。在刚刚说的詹姆斯·林德所做的柑橘和柠檬对坏血病影响的实验中我们已经发现了端倪，这个所谓的“背景”就是关于对实验结果有影响的参数的选择问题。比如，我是否应该让两组水手尽量胖瘦分布相近，我是否应该让两组水手尽量身高分布相近，我是否应该让两组水手的家族病史尽量分布相近……因为我不选这个参数作为背景进行随机分布的前提就是我认定了这个参数对于实验结果的影响是可以忽略不计的，否则实验的结果其实是不可信的。
我们来说一个极端的甚至有些荒诞的例子，比如在一个实验中设计有A和B分别作为实验组和对照组。A组10人全部为40岁以上男性，B组10人全部为40岁以下女性，然后观察两组人是否生长胡须。在实验记录上记下“A组10人，40岁以上；B组10人40岁以下。经过观察A组全部长胡须，B组全部没有”这会不会引导出一个结论“40岁是人长胡须与否的分水岭”？
实验结论的记录者不论是处于什么原因，他虽然漏记了两个样本组的性别，但是记录的内容确实是“准确无误”的，可是最终结果却荒谬到家了。要注意的是，漏记参数和在自己意识不到的情况下没有把参数选入“背景”导致的结果很可能是一样可怕的。问题是应该把多少因素都考虑进去呢？
这个边界的划定在我看来是一个“性价比”的问题，学术上虽然没有一个确切的定义，不过在实际操作上我们显然是会考虑把那些可能对统计结果产生影响的因素和确定成本较为廉价的因素优先放入，这个原则应该是没有问题的。
当然，这种事情同样可以通过别的方式避免。在以统计学为理论基础的机器学习的体系中有一个环节叫做“validation”——就是验证。也就是把实验结论中的限制条件附加在另一些观察对象上，看看是不是能够得到和实验相同的结论来检查其应验性。如果能够得到同样的结论，那么就说明这种实验结论的可靠性是值得信任的。这个环节非常重要，也是确保这种归纳认知过程科学性的一种关键手段。对照实验是一种非常广谱的实验方式，对于那些维度过于复杂的认知对象来说使用对照实验的本质是压缩差异维度的数量来提升认知能力的有效手段。

图书分类

领导力Lead可持续战略成功：班长的战争

特色专题

帮助

高扬

读者评论

相关专题

相关博文

Spark四大特征分析介绍

数据治理“知易行难”？来看看《数据治理实践者手记》

用Python构建大数据推荐系统：一个世界500强企业的成功案例