读书笔记_统计数字会说谎

我在上学术道德的课,去搜了一些关于数据造假方法的资料。How to Lie with Statistics这本书被多次推荐。这本书是一本上世纪50年代的通俗小册子,不过关于统计(特别是社会统计)的一些tricks的分析还是很有启发性的。书的内容用一句话来说,就是如何在不伪造数据的条件下,利用统计的技巧来实现预期的论证。我写了一篇读书报告当作结课作业,权且贴在这里。

如何避免数据统计中的学术不当行为

——读《统计数据会说谎》

《统计数据会说谎》(译名,原名为How to Lie with Statistics)为美国统计学家达莱尔·哈夫(Darrel Huff)于1954年写作的面向公众的统计学读物。在当时的美国,以报纸和杂志为代表的大众传媒发展迅速,大众对于了解社会现状和科学普及的需求也日益高涨。另一方面,统计学作为一种科学方法论,提供具体可感的数字,被广泛的接受和应用,甚至某种意义上形成了一种“尊崇统计风”。然而为了传播效果,媒体经常会利用统计的手段,人为地制造出引人注目的结论。有感于这种不实之风,达莱尔以一位经验老辣的统计学家的身份,以一种社会批评的方式,列举并批判了一系列常见的行骗手段,试图为社会大众普及统计学常识,避免其被统计手段操纵。

我选择读这本书的最主要的目的是,我想借此机会反思,在科研过程中,如何识别和避免数据统计的学术不当行为。概率论和数理统计是现代数学的重要分支,更是现代科学,特别是实验科学的最主要的方法论之一。通过统计分析,我们得以从偶然的、特殊的实验现象中,分析出具有一定普遍性的科学理论和解释。然而不可避免地,在统计过程中加入了人的因素,使得数据分析带有了研究者自身的视角和观点。尽管实验是真实发生的,数据是如实记录的,但是利用不同的统计分析角度和方法,就能在相同的数据基础上得到不同的结论(这常常也是科研工作者敏锐的科学思维的体现)。这种统计的灵活性,加之研究者对于自己信念的执着,使得实验科学潜在着很高的学术不当的风险。

结合书的内容我进行了一些思考。书的前八章分别列举了一些常见的统计手段:采用内在有偏的样本,使用不同的平均数,选取样本容量过小,只给出具体数据而没有给出误差范围,调整坐标轴,使用夸张化的图形,使用不匹配的数据得出结论,用因果性替代相关性。在学术研究中,这些统计手段同样意味着数据不当使用。我挑选了三种我认为最重要的手段,样本内在有偏、无视误差和相关性错用,概括书中相关内容,并结合我自己对于化学实验的经验,进行分析。

1. 采用内在有偏的样本

核心问题:采集的样本不能代表整个样本空间。结论呈现的是样本内的特征,而不具有普遍性。

书中案例:*“*耶鲁大学1924级毕业生平均年收入高达25111美元。”P4

——数据的调查方式是杂志的邮寄问卷。存在两个可能导致偏差的节点:一是居无定所,或者住在偏远地区的人收不到问卷,被排除在调查之外;二是愿意回复收入的人都是有固定收入,并且对于自己的收入相对满意的人。这就导致调查样本是有偏的,不能代表全部1924级耶鲁毕业生。

自己的经历:(信息来自隔壁实验室)尝试新的合成反应,结果很好;但是更换了不同厂商的催化剂做实验,实验结果截然不同。后经查明是之前的催化剂中有其他杂质。

——这是化学实验中最常见的样本有偏之一。由于微量的催化剂就可以导致反应效果的巨大改变,因此如果选用了有杂质的样品,实验结果可能会截然不同。如果没有详细检测样本中的各种成分,或者忽视杂质的存在,就会导致实验结论可靠性下降。

如何避免:对于实验中用到的所有反应物,要完整地记录其来源,以便追溯检查。在实验中,要做好样品提纯和检测分析,减少杂质的影响。多次实验,并且使用不同批次的反应物,避免偶然性。

2. 数据没有给出误差范围

核心问题:统计数据的绝对数值需要结合置信区间才有意义。

书中案例:*“皮特智商为98,琳达智商为101,平均智商为100。那么皮特就比较笨,琳达就比较聪明吗?”P54*

——统计数据,特别是通过实验测量的数据存在误差。误差的范围取决于实验测量的方式。在这种智商测试中,存在一定的测量误差,最终的测量结果应当是一个置信区间而非一个绝对数值。皮特和琳达的智商的差距有可能是因为存在测量误差,而不是因为两者智力水平存在差距。

自己的经历:(来自自己的实验经历)对一个样品做浓度测量。样品浓度太低,实际信号太小,测得的信号得到的主要是背景噪声。

——对于一些材料性能的测试中,性能的好坏通常以数值来呈现。但是测试仪器和方法是存在误差的。有可能测得的数据是噪声或者是误差数据,而无法反映真实的性质。

如何避免:检测前要了解检测方式的精度。检测时要多次检测,记录每次的检测结果。在呈现实验结果时,不光要呈现测量的数值,还要给出数值的误差分布,以作证测量的精度。

3. 用因果性替代相关性

核心问题:统计学是一种相关性研究,而不能直接提供因果性证明。

书中案例:*“马萨诸塞州长老会牧师的工资与哈瓦那的朗姆酒价格密切相关。”P102*

——两个特征数据的相关性不能直接推导出因果性。在上面这个例子中,无法直接证明牧师售卖朗姆酒,或者牧师支持朗姆酒售卖。统计相关性是一个粗糙的,点对点的关系;而因果性则是一种精密的,需要完整的逻辑链条的关系。在上面这个例子中,为了解释两者的相关性,可以追溯到背景性的第三者,也就是普遍性的通货膨胀。

自己的经历:(来自自己的实验经历)做实验时,发现降低反应物浓度可以提高反应产率,推测反应物浓度可以影响反应转化率。结果发现是由于在高浓度反应时,实验产物的后处理损耗率更高,从而对产率产生了影响。

——实验中往往是多因素多变量共同影响。两个变量之间的相关性,很有可能是由于对于一个隐藏的第三变量的影响导致的。

如何避免:对于因果性的解释需要非常谨慎,在没有充足的证据时尽量使用相关性描述,以保证结果的可靠性。在对实验数据进行分析时,应该尽量对所有影响实验结果的因素进行考虑,而不能断章取义。

《统计数据会说谎》一书对于我们反思数据使用不当是有启发性的。在学术不端案例中,往往涉及数据的伪造、篡改等一系列改变原始数据的方式。然而,本书指出,在一些情况下,原始数据可能是真实的,但是研究者通过统计的技巧,仍然可以“编织”出自己想要的结论。在学术层面,这就是所谓的统计不当,或者数据的不当使用。

为了识别和避免统计数据的不当使用,需要在强调原始数据真实性的前提上,提高对于数据分析全过程的重视。我认为,一个有效的数据记录,应当能够还原从实验室到论文的链条。这就提示我们不光要如实记录和保存原始数据,更要对于数据来源、实验流程、统计分析方法都要进行记录和展示。在科研前沿领域,由于研究范式仍处在探索中,使得统计标准在规范与执行上都存在难度。由此导致的实验结论偏移,以及潜在的学术不当风险,我认为是无法避免的。但是如果我们能做到对于数据分析全过程的记录,那么一方面,我们能减某些少主观学术不当行为的出现;另一方面,我们也能对于研究结论进行更深入的鉴别,哪怕结论是不可靠的,我们也可以追溯是在哪个环节出了问题。

参考文献:

[1] (美)达莱尔·哈夫著;靳琰,武钰璟译. 统计数据会说谎[M]. 中信出版社, 2018.