◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇ Matthews的雨天预测问题 晓舟 Matthews在《你的预测有多准?》里,提出了这样一个有趣的问题:“如果 天气预报的准确率为80%,实际降雨的概率为10%,现在天气预报有雨,那么实际 有雨的概率是多少?”。接下来作者给出了两条结论,考虑100次天气: 结论1、“在这10次下雨天气中,天气预报将会准确预报其中的8次,因为它 的准确率为80%。”。 结论2、“不过80%的准确率同时也意味着20%的不准确率——因此气象局将 会把(90次中)18次晴好天气预报成有雨。”。 因此预报有雨且实际有雨的概率为8/(8+18),约为30%。这样的推理正确吗? 还是列出下表吧: 实际有雨 实际没雨   预报有雨 A B 预报没雨 C D 1、召回率: Recall=A/(A+C)*100% 2、正确率: Precision=A/(A+B)*100% 3、精确率: Accuracy=(A+D)/N*100% 4、虚报率: Fallout=B/(B+D)*100% 5、错误率: Error=(B+C)/N*100%, Error=1-Accuracy 6、漏报率: Miss=C/(A+C), Miss=1-Recall 代入此例中的数据,得到: 实际有雨 实际没雨   预报有雨 8 18 预报没雨 2 72 显然,结论1是根据A/(A+C)为80%得到的,结论2是根据D/(B+D)为80%得到的, 前者说明召回率为80%,后者说明1-虚报率为80%。但是作者只给出了准确率为 80%,而没有说明这另外两个率等于多少,Matthews的准确率到底是指什么呢? 有三种可能性: A、作者的准确率是指Accuracy:(A+D)/N 作者在原文中就是用的accuracy和accurate。然而,从accuracy =(A+D)/(A+B+C+D)等于80%,是无法推出A/(A+C)和D/(B+D)都等于80%这个结论的! 比如下表: 实际有雨 实际没雨 预报有雨 5 15 预报没雨 5 75 准确率为80%,但召回率为50%,虚报率为17%! B、作者的准确率是指Recall:A/(A+C) 如果准确率指召回率,那么得到结论1是没问题的,但却无法得到作者的结 论2了:A/(A+C)等于80%,并不“意味着”B/(B+D)等于20%。比如下表: 实际有雨 实际没雨   预报有雨 8 45 预报没雨 2 45 这里虚报率为50%。因此,只有进一步设定虚报率为20%,才能得到结论2。 C、作者的准确率既指Recall:A/(A+C),又指B/(B+D) 如果作者用准确率80%同时表示召回率、1-虚报率都等于80%,那结论1和结 论2都能够顺利得出了。但这也有不严密之处:从A、B中的讨论可以看出这两个 量(召回率,1-虚报率)并不一定相等,而这里隐含地设定其相等,并且用同一 个词“准确率”来表示,由于这个“准确率”在数学上又另有所指(指精确率 (A+D)/N,按照yimin翻译为准确率),因此容易引起误解。如果面向专业读者, 问题说得不够严密,如果面向普通读者,问题又说得不够清楚。XYS上的许多讨 论,不就是因为这个含混的定义引起的么? 其实我认为Matthews这篇文章并没有存在什么实质性的错误,只是不太严密 而已,按照上面C的说法,读者不那么较真,也能够解释过去。他其实想说明的, 是一种称为基数谬误(base-rate fallacy)的现象,也就是说,当基础事件— —这里是下雨——的发生概率本身较低的情况下,给出的下雨预报其实大都是虚 报的,一种看似有效的预测方法,其正确的预测结果,都淹没在了大量错误的预 测结果中了。 最后,对奥卡姆剃刀《对小张、晓舟、寻正有关概率问题的第三次回复》的 有关问题答复如下: 【但作为召回率A/(A+C)的互斥事件概率,当然只能是漏报率C/(A+C)而不可 能是虚报率B/(B+D),因为两个互斥事件概率和为1,召回率A/(A+C)+漏报率 C/(A+C)=1,而与你所谓的虚报率B/(B+D)无关,请你再认真思考一下。】 我原文说“在Robert Matthews的原文中,其实是想说明这样一个问题,天 气预报的召回率为80%,虚报率为1-80%,结合实际下雨的概率,则正确率可能为 30%。”,现在按照你的说法,把这段话中的漏报率改为虚报率,不提虚报率为 20%,如何能够得到Matthews的结论2以及后边的结论? 因此,在原文中,我既不是笔误,也不是要讨论什么召回率+漏报率=1,就 是想说明,要得到Matthews的结论,需要用到“召回率为80%,虚报率为1-80%” 两个条件,缺一不可。到底哪个准确,你自己琢磨一下吧。 【“在这10次下雨天气中,天气预报将会准确预报其中的8次,因为它的准 确率为80%.”这句话难道表述得还不够清晰吗?难道还不足以令你认识到80%指 的就是“在实际下雨的天中,80%都能正确地提前预报有雨”吗?】 文章前后使用“准确率”容易造成混淆的问题,上面我在A、B、C已经分析 过了,这里不再赘述。引用一位搞科普工作朋友的话:“原文搞出这么多疑问来, 只说明科普文章写得不够清楚,对于《新科学家》这样一份大众科学新闻杂志, 难道读者还要先去学现代概率理论然后再读他的文章?……clarity是写作的基 本要求之一。” 【我感到,Robert Matthews这篇科普文是非常精彩的,虽然使用的都是通 俗的科普语言,但该交待的也都交代清楚了,只是你没有认真读懂而矣。】 如果你认为作者“该交待的都交代清楚了”,使得读者们都能够搞清楚文中 所谓的“准确率”到底是指哪个概率,那我也就无话可说了,只能祝贺你读懂了 这篇“非常精彩的”的科普文章! 下面是你对小张网友一点答复: 【…在这10次下雨天气中,天气预报将会准确预报其中的8次,因为它的准 确率为80%。这已经非常明确的指明……80%的准确率就是说P(预报有雨|下雨 了)=P(预报无雨|没下雨)=0.8。】 这里只能说明P(预报有雨|下雨了)=0.8(即召回率=0.8),哪里能够指明 P(预报无雨|没下雨)=0.8(即1-虚报率=0.8)?应该不是原文“该交待的都交代 清楚了”使得你得出这个结论的吧? (XYS20080801) ◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇