刚见到有报道(1)说非 O 血型者患心脏病的概率高。原报道是欧洲心脏病学会(European Society of Cardiology)的一篇会议论文。报告人调查了一百三十万人,发现 O 血型者患心脏病的比例是 14‰,而非 O 血型的是 15‰。以前还有报道(2)说是 AB 血型者患心脏病的可能比其它血型高 23%。
从这两个数据看,报道一的结果可靠些,因为其涉及的样本大。然而这也是一个统计陷阱。
相关系数是检测两个现象是否有关系的一个指标。举个通俗的例子,我们知道身体高的体重通常比较大。这样如果把一个群体中每个对象的身高和体重记录下来,算一下相关,我们通常会得到一个大于 0、小于 1 的相关系数。这里要注意的第一个陷阱是相关不是因果。我们不能说因为身体高而体重大,也不能说因为体重大而身体高。
第二个陷阱是相关有强弱。相关系数是介于 -1 和 +1 之间的一个数。相关越接近 0 越弱,反之越强。在经典统计学中,我们不单要衡量两个变量之间的相关强弱,还要判断这个相关有多大的可能性是真的。这个通常通过算一个近似的正态分布或者 t 分布统计量来判断。如果这个统计量及大于这个统计量对应的概率小于某个值,比如 0.05,我们就说这个相关基本可以断定是真的。统计学的术语叫做显著。
这样就有四种极端情况,即显著的强相关,显著的弱相关,不显著的强相关,和不显著的弱相关。
这个判断是否显著的式子我就不抄了。尴尬的是,根据这个式子,只要样本量足够大,随机相关无论多么弱都很容易显著。现在回头看第一段引用的数据我们就可以发现其可笑之处。
类似的现象在畜牧业中也有。比如奶牛的胸围和产奶量,这个甚至从道理上似乎也有一些道理,比如胸围越大产量越高。这个相关比血型与心脏病之间的甚至要高很多,但在畜牧业中没有什么人会根据奶牛胸围来选择奶牛产量。
可见这两篇报道每个都掉进了两个坑。第一个坑是用大样本算出了显著的弱相关,第二个坑是根据发现的显著弱相关来凑因果。报道二的偏差大很可能是其样本不够。报道一样本大,可以算作一个可靠的不可靠。
发表这样结果的,不管他是来自哈佛医学院还是来自欧洲心脏病学会,都应该重修一下本科的《生物统计》。
http://www.bbc.com/news/health-39745964 http://www.bbc.com/news/health-19257876