◇◇新语丝(www.xys.org)(xys5.dxiong.com)(www.xinyusi.info)(xys2.dropin.org)◇◇   田忌赛马和辛普森悖论   晓鸿   田忌赛马是个家喻户晓的有关谋略的故事,田忌的各个等级的马都不如齐威 王,但孙膑献计田忌,用下等的马对齐威王的上等马,中等马对齐威王的下等马, 上等马对齐威王的中等马,从而三局两胜赢了齐威王。   这个故事说明了谋略的重要,但换个角度看,也可以作为避免比较的误区的 一个案例.   我们生活在各种各样的比较中:比分数,比论文,比业绩,横向比较,纵向 比较,比总量,比人均,……然而很多人经常不知不觉中陷入各种比较的误区。   比如管理者选拔人才时,实际上就是进行人才的比较。要是选拔养马人,应 该把齐威王选拔出来;要是选将才,应该把孙膑选出来;要是选单匹马,应该把 齐威王的上等马、中等马和田忌的上等马选出来;要是选千里马团队,应该把齐 威王的千里马团队选出来。   但碰到具体问题时,管理者单靠看业绩时常常陷入误区:田忌的团队三战两 胜,于是养马人才田忌胜出;孙膑比赛时是在田忌领导下出谋划策的,于是将才 选拔田忌胜出而孙膑落选;田忌的中等马赛场得胜,而齐威王的中等马赛场战败, 于是千里马选拔齐威王的中等马败北。甚至生活中经常碰到齐威王的中等马郁郁 不得志得不到机会,而田忌的中等马虽被选拔出来却不是用来比赛,而是接替孙 膑做领军人物。   如果限定同类对比,是否就不会陷入误区了呢?   我们不妨续写田忌赛马的故事:   伯乐来挑选千里马团队了,他看出了孙膑的计谋,加上了一个限定条件:比 赛时大家按照先下等马、再中等马、再上等马的顺序出场,由于要选拔的是团队, 所以比赛形式是接力跑,根据最终的结果决定输赢。   孙膑为此又想了一招:不是等距离接力,而是将双方的马的接力位置刻意安 排一下,让齐威王的下等马、中等马跑很长的时间,这样等最后一棒齐威王的上 等马开始发威时,比赛已经临近结束了。而田忌的马则让下等马和中等马只跑很 短的时间,虽然这段时间田忌的马会落后,但接下来的大部分时间让田忌的上等 马在跑,此时齐威王还是下等马或中等马在跑,跑足够的时间就可以把它们远远 甩在后面了。等齐威王的上等马终于等到接力棒时,纵使其能力再强,也无法在 短时间内赶上了。   这一招明眼人一看就可以看出问题,它本质上还是用快马和人家的慢马比赛, 只是经过了这么包装一下后,表面上是同类对比,所以在现实生活中遇到这些数 据时就更容易迷惑人,更容易让我们的直觉发生错误。   比如A国和B国的人口都是100个人,A国21个人患高血压,B国14个人患高血 压,哪个国家的高血压情况严重呢?光从这个数据看,明显是A国严重。但是如 果换一种统计方式:将两个国家的人口一分为二,分成年轻人和老年人来统计, A国年轻人的高血压患病率是5%,B国则是10%;A国老年人的高血压患病率是25%, B国则是50%,则明显是B国的高血压患病率要高得多。   这可能吗?A国的年轻人和老年人的高血压患病率都比B国要低很多,但合在 一起统计的话怎么会A国的高血压患病率却比B国高很多?   还是让数据来说话,比如A国有20位年轻人,其中只有1位患高血压;80位老 人,其中有20位患高血压。B国则有90位年轻人,其中有9位患高血压;10位老人, 其中有5位患高血压。简单计算一下就可以发现前面的两种统计数据都是正确的。   类似地,假如A和B两个大学都由两个学院组成。B大学计算机学院人均科研 经费200万元,机械学院人均科研经费10万元,A大学计算机学院人均科研经费40 万元,机械学院人均科研经费5万元。每个指标都是B大学比A大学好,但计算整 个学校的人均科研经费时,A大学是36.41万元,远高于B大学的人均科研经费 27.27万元!   可能吗?具体算算看,B大学计算机学院2000万/10人=200万/人,机械学院 1000万/100人=10万元/人;A大学计算机学院4000万/100人=40万/人,机械学院 50万/10人=5万/人。按照这个数据算人均科研经费的综合排名,B大学总经费 2000+1000=3000万,总人数110人,人均经费3000万/110=27.27万。A大学总经费 4000万+5万=4005万,总人数也是110人,人均经费4005万/110=36.41万。   这一现象不是个别的,“在分组比较中都占优势的一方,在总评中反而是失 势的一方”,在二十世纪初就有人在讨论这一现象。到了1951年,英国统计学家 辛普森在其论文中正式描述和解释了这一现象,所以该现象被称为“辛普森悖 论”。   用改编后的田忌赛马的故事并不难理解这一现象。A国就像田忌,B国就像齐 威王,年轻人就像慢马,老年人就像快马。虽然B国年轻人的患病率10%远远高过 A国的5%,但B国年轻人口多,就像齐威王大部分时间是用慢马在跑一样,B国大 部分阶段是在用10%的患病率和A国的快马——老年人的25%的患病率在比。等B国 老年人的患病率50%开始对最终数据发挥影响时,由于B国只有很少的10位老人, 所以对最终数据的影响并不大,就像齐威王的快马刚开始跑时比赛就已经结束了。 这样光看最终结果反而给人A国高血压情况更严重的错觉。   类似地,一个学校每个学院的人均论文数都比另一个学校高,但整个学校的 人均论文数却可能比另一个学校低。一个学校的各个专业的录取比例都比前一年 上升时,整个学校总的录取比例却有可能比前一年下降。一个学校里面每个系的 男女比例都大于另外一个学校,但总体计算男女比例却有可能小于另外一个学校。   为了避免这个现象,统计学上通常为分组加上权值。但现实生活中,像大学 排行榜,如何进行分组、如何设定权值常引起争论。   田忌赛马及辛普森悖论给我们的启示是,进行比较时,不光要看数据,还要 对数据进行正确的分析。作为研究者对比不同方案的数据时如此,作为管理者选 拔人才时也如此。   而作为被人拿来比较的千里马,是到田忌的团队还是到齐威王的团队,在不 同的评价体系下会有截然不同的命运。这就更得根据自身的情况、自己的价值取 向以及周围的环境情况来斟酌了。   此外,作为弱者,恰当地运用辛普森悖论则可以达到以弱胜强的效果。战争 中通过运动战“集中优势兵力,各个歼灭敌人”,其实和本文续写后的田忌赛马 类似,是在各个局部分组都不利的情况下,通过一定的策略用局部的优势兵力和 对方的劣势兵力进行对决,最终达到总体效果上的优势。 ◇◇新语丝(www.xys.org)(xys5.dxiong.com)(www.xinyusi.info)(xys2.dropin.org)◇◇