读书笔记_统计数字会说谎

发表于 2022-03-27 更新于 2024-04-09

我在上学术道德的课，去搜了一些关于数据造假方法的资料。How to Lie with Statistics这本书被多次推荐。这本书是一本上世纪50年代的通俗小册子，不过关于统计（特别是社会统计）的一些tricks的分析还是很有启发性的。书的内容用一句话来说，就是如何在不伪造数据的条件下，利用统计的技巧来实现预期的论证。我写了一篇读书报告当作结课作业，权且贴在这里。

如何避免数据统计中的学术不当行为

——读《统计数据会说谎》

《统计数据会说谎》（译名，原名为How to Lie with Statistics）为美国统计学家达莱尔·哈夫（Darrel Huff）于1954年写作的面向公众的统计学读物。在当时的美国，以报纸和杂志为代表的大众传媒发展迅速，大众对于了解社会现状和科学普及的需求也日益高涨。另一方面，统计学作为一种科学方法论，提供具体可感的数字，被广泛的接受和应用，甚至某种意义上形成了一种“尊崇统计风”。然而为了传播效果，媒体经常会利用统计的手段，人为地制造出引人注目的结论。有感于这种不实之风，达莱尔以一位经验老辣的统计学家的身份，以一种社会批评的方式，列举并批判了一系列常见的行骗手段，试图为社会大众普及统计学常识，避免其被统计手段操纵。

我选择读这本书的最主要的目的是，我想借此机会反思，在科研过程中，如何识别和避免数据统计的学术不当行为。概率论和数理统计是现代数学的重要分支，更是现代科学，特别是实验科学的最主要的方法论之一。通过统计分析，我们得以从偶然的、特殊的实验现象中，分析出具有一定普遍性的科学理论和解释。然而不可避免地，在统计过程中加入了人的因素，使得数据分析带有了研究者自身的视角和观点。尽管实验是真实发生的，数据是如实记录的，但是利用不同的统计分析角度和方法，就能在相同的数据基础上得到不同的结论（这常常也是科研工作者敏锐的科学思维的体现）。这种统计的灵活性，加之研究者对于自己信念的执着，使得实验科学潜在着很高的学术不当的风险。

结合书的内容我进行了一些思考。书的前八章分别列举了一些常见的统计手段：采用内在有偏的样本，使用不同的平均数，选取样本容量过小，只给出具体数据而没有给出误差范围，调整坐标轴，使用夸张化的图形，使用不匹配的数据得出结论，用因果性替代相关性。在学术研究中，这些统计手段同样意味着数据不当使用。我挑选了三种我认为最重要的手段，样本内在有偏、无视误差和相关性错用，概括书中相关内容，并结合我自己对于化学实验的经验，进行分析。

1. 采用内在有偏的样本

核心问题：采集的样本不能代表整个样本空间。结论呈现的是样本内的特征，而不具有普遍性。

书中案例：*“*耶鲁大学1924级毕业生平均年收入高达25111美元。”P4

——数据的调查方式是杂志的邮寄问卷。存在两个可能导致偏差的节点：一是居无定所，或者住在偏远地区的人收不到问卷，被排除在调查之外；二是愿意回复收入的人都是有固定收入，并且对于自己的收入相对满意的人。这就导致调查样本是有偏的，不能代表全部1924级耶鲁毕业生。

自己的经历：（信息来自隔壁实验室）尝试新的合成反应，结果很好；但是更换了不同厂商的催化剂做实验，实验结果截然不同。后经查明是之前的催化剂中有其他杂质。

——这是化学实验中最常见的样本有偏之一。由于微量的催化剂就可以导致反应效果的巨大改变，因此如果选用了有杂质的样品，实验结果可能会截然不同。如果没有详细检测样本中的各种成分，或者忽视杂质的存在，就会导致实验结论可靠性下降。

如何避免：对于实验中用到的所有反应物，要完整地记录其来源，以便追溯检查。在实验中，要做好样品提纯和检测分析，减少杂质的影响。多次实验，并且使用不同批次的反应物，避免偶然性。

2. 数据没有给出误差范围

核心问题：统计数据的绝对数值需要结合置信区间才有意义。

书中案例：*“皮特智商为98，琳达智商为101，平均智商为100。那么皮特就比较笨，琳达就比较聪明吗？”P54*

——统计数据，特别是通过实验测量的数据存在误差。误差的范围取决于实验测量的方式。在这种智商测试中，存在一定的测量误差，最终的测量结果应当是一个置信区间而非一个绝对数值。皮特和琳达的智商的差距有可能是因为存在测量误差，而不是因为两者智力水平存在差距。

自己的经历：（来自自己的实验经历）对一个样品做浓度测量。样品浓度太低，实际信号太小，测得的信号得到的主要是背景噪声。

——对于一些材料性能的测试中，性能的好坏通常以数值来呈现。但是测试仪器和方法是存在误差的。有可能测得的数据是噪声或者是误差数据，而无法反映真实的性质。

如何避免：检测前要了解检测方式的精度。检测时要多次检测，记录每次的检测结果。在呈现实验结果时，不光要呈现测量的数值，还要给出数值的误差分布，以作证测量的精度。

3. 用因果性替代相关性

核心问题：统计学是一种相关性研究，而不能直接提供因果性证明。

书中案例：*“马萨诸塞州长老会牧师的工资与哈瓦那的朗姆酒价格密切相关。”P102*

——两个特征数据的相关性不能直接推导出因果性。在上面这个例子中，无法直接证明牧师售卖朗姆酒，或者牧师支持朗姆酒售卖。统计相关性是一个粗糙的，点对点的关系；而因果性则是一种精密的，需要完整的逻辑链条的关系。在上面这个例子中，为了解释两者的相关性，可以追溯到背景性的第三者，也就是普遍性的通货膨胀。

自己的经历：（来自自己的实验经历）做实验时，发现降低反应物浓度可以提高反应产率，推测反应物浓度可以影响反应转化率。结果发现是由于在高浓度反应时，实验产物的后处理损耗率更高，从而对产率产生了影响。

——实验中往往是多因素多变量共同影响。两个变量之间的相关性，很有可能是由于对于一个隐藏的第三变量的影响导致的。

如何避免：对于因果性的解释需要非常谨慎，在没有充足的证据时尽量使用相关性描述，以保证结果的可靠性。在对实验数据进行分析时，应该尽量对所有影响实验结果的因素进行考虑，而不能断章取义。

《统计数据会说谎》一书对于我们反思数据使用不当是有启发性的。在学术不端案例中，往往涉及数据的伪造、篡改等一系列改变原始数据的方式。然而，本书指出，在一些情况下，原始数据可能是真实的，但是研究者通过统计的技巧，仍然可以“编织”出自己想要的结论。在学术层面，这就是所谓的统计不当，或者数据的不当使用。

为了识别和避免统计数据的不当使用，需要在强调原始数据真实性的前提上，提高对于数据分析全过程的重视。我认为，一个有效的数据记录，应当能够还原从实验室到论文的链条。这就提示我们不光要如实记录和保存原始数据，更要对于数据来源、实验流程、统计分析方法都要进行记录和展示。在科研前沿领域，由于研究范式仍处在探索中，使得统计标准在规范与执行上都存在难度。由此导致的实验结论偏移，以及潜在的学术不当风险，我认为是无法避免的。但是如果我们能做到对于数据分析全过程的记录，那么一方面，我们能减某些少主观学术不当行为的出现；另一方面，我们也能对于研究结论进行更深入的鉴别，哪怕结论是不可靠的，我们也可以追溯是在哪个环节出了问题。

参考文献：

[1] （美）达莱尔·哈夫著；靳琰，武钰璟译. 统计数据会说谎[M]. 中信出版社, 2018.