我在上学术道德的课,去搜了一些关于数据造假方法的资料。How to Lie with Statistics这本书被多次推荐。这本书是一本上世纪50年代的通俗小册子,不过关于统计(特别是社会统计)的一些tricks的分析还是很有启发性的。书的内容用一句话来说,就是如何在不伪造数据的条件下,利用统计的技巧来实现预期的论证。我写了一篇读书报告当作结课作业,权且贴在这里。
如何避免数据统计中的学术不当行为
——读《统计数据会说谎》
《统计数据会说谎》(译名,原名为How to Lie with Statistics)为美国统计学家达莱尔·哈夫(Darrel Huff)于1954年写作的面向公众的统计学读物。在当时的美国,以报纸和杂志为代表的大众传媒发展迅速,大众对于了解社会现状和科学普及的需求也日益高涨。另一方面,统计学作为一种科学方法论,提供具体可感的数字,被广泛的接受和应用,甚至某种意义上形成了一种“尊崇统计风”。然而为了传播效果,媒体经常会利用统计的手段,人为地制造出引人注目的结论。有感于这种不实之风,达莱尔以一位经验老辣的统计学家的身份,以一种社会批评的方式,列举并批判了一系列常见的行骗手段,试图为社会大众普及统计学常识,避免其被统计手段操纵。
我选择读这本书的最主要的目的是,我想借此机会反思,在科研过程中,如何识别和避免数据统计的学术不当行为。概率论和数理统计是现代数学的重要分支,更是现代科学,特别是实验科学的最主要的方法论之一。通过统计分析,我们得以从偶然的、特殊的实验现象中,分析出具有一定普遍性的科学理论和解释。然而不可避免地,在统计过程中加入了人的因素,使得数据分析带有了研究者自身的视角和观点。尽管实验是真实发生的,数据是如实记录的,但是利用不同的统计分析角度和方法,就能在相同的数据基础上得到不同的结论(这常常也是科研工作者敏锐的科学思维的体现)。这种统计的灵活性,加之研究者对于自己信念的执着,使得实验科学潜在着很高的学术不当的风险。
结合书的内容我进行了一些思考。书的前八章分别列举了一些常见的统计手段:采用内在有偏的样本,使用不同的平均数,选取样本容量过小,只给出具体数据而没有给出误差范围,调整坐标轴,使用夸张化的图形,使用不匹配的数据得出结论,用因果性替代相关性。在学术研究中,这些统计手段同样意味着数据不当使用。我挑选了三种我认为最重要的手段,样本内在有偏、无视误差和相关性错用,概括书中相关内容,并结合我自己对于化学实验的经验,进行分析。
1. 采用内在有偏的样本
核心问题:采集的样本不能代表整个样本空间。结论呈现的是样本内的特征,而不具有普遍性。
书中案例:*“*耶鲁大学1924级毕业生平均年收入高达25111美元。”P4
——数据的调查方式是杂志的邮寄问卷。存在两个可能导致偏差的节点:一是居无定所,或者住在偏远地区的人收不到问卷,被排除在调查之外;二是愿意回复收入的人都是有固定收入,并且对于自己的收入相对满意的人。这就导致调查样本是有偏的,不能代表全部1924级耶鲁毕业生。