◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.dropin.org)(xys-reader.org)◇◇   关于我所检索到的数据   ——试答kelang和钟祖文1号两位网友关于“汤姆森路透卓越研究奖”的质疑   作者:嘶喊   在新语丝看到kelang和钟祖文1号两位网友的网文,分别是:《清华大学龙 桂鲁的论文凭什么获卓越研究奖?》(作者:kelang)和《“汤姆森路透卓越研 究奖”怎能如此忽悠中国人?》(作者:钟祖文1号)。下面本人就二位作者提 出的质疑,以及他们文中出现的大小错误(相信是马虎草率所致),通过使用 Web of Science数据库(即俗称的“SCI网络版”)获得的数据进行一些分析和 探讨,目的是客观给出数据,并根据数据进行初步分析,给出一些结论。至于 “汤姆森路透卓越研究奖”是否“忽悠国人”,并非本文目的,还请读者根据笔 者提供的网址去自行判断。另外,本人并非物理化学专业背景,本人本科临床医 学,硕士肿瘤免疫,博士生物信息,因此如有任何错漏之处,还请行家里手多多 批评指正!   首先看看本次评选的标准和方法,该方法发布在“科学网”的新闻频道,链 接:http://www.sciencenet.cn/news/Thomsonnews.aspx?id=207280。在这篇文 章中,我注意到入选标准有两条,一条是“确定高被引论文”,另一条是“利用 文献共引分析方法发现研究前沿”。也就是说入选文章必须是高被引的文章,同 时必须身处一个“研究前沿领域”里面。第一条“高被引”的意思好理解,但如 何判断“研究前沿领域”呢?这就是汤姆森科技ESI Special Topics网站的功能 了,这个网站根据研究前沿分析(Research Front analysis)的方法,发现高 被引文章之间的共同被引的统计关系,然后进行聚类分析,发现了一个个由这些 高被引文章组成的“模块”,再通过ontology的语义分析,将这些模块主题确定 为一个“研究前沿领域”,具汤姆森科技自己统计,在2001-2006年间,全球共 有5,538个研究前沿,由51,429篇高被引论文(Highly Cited Papers,即各学科 各年度前1%之文献)组成。比如此次获奖的临床医学类的文章,就是在H5N1这个 “前沿领域”的,这个领域发表高被引文章48篇,总体被引频次是3900次,平均 每篇文章被引81.25次(如图所示)   同样,被质疑的清华大学龙桂鲁教授和北京师大赵峥教授的入选文章也在各 自的“研究前沿领域”里,如龙桂鲁教授入选文章的所在领域的高被引文章为39 篇,总体被引频次是3142次,平均每篇文章被引80.56次;赵峥教授入选文章的 所在领域的高被引文章为18篇,总体被引频次是623次,平均每篇文章被引34.61 次。走笔至此,想必大家已经明白了,这个Double Check就是为了保证最新的、 前沿的、高被引的文章浮出水面。那么不在“研究前沿领域”的高被引文章是不 是就吃亏了,不能获奖了呢?没错!我估计肯定有一些单篇文献的影响力非常大, 但是没能入选中国学者有突出贡献的研究前沿,所以也就不能获奖了。   另外,在评选标准中还有一个“隐含”的条件,就是必须是“全部为中国大 陆学者”,该标准的表述比较复杂,此处不再赘述,大家可以看科学网的详细评 选办法说明。   我们先来看看kelong作者的失误。在kelang的《清华大学龙桂鲁的论文凭什 么获卓越研究奖?》一文中提及了文章被引的数据,细心的读者会注意到,这个 数据的来源是“Show Only APS Citations(总计被引48次)”,而不是真正的 被引频次统计(这也是新语丝作者LZR在其文章《关于龙桂鲁论文的引用》中提 出的疑问原因),龙桂鲁该文真正的被引频次是130次,具体数据在LZR的文章 《关于龙桂鲁论文的引用》中已经给出,此处不再赘述,附图一张,以示说明:   在kelang文中提及了作者的自引情况。其实如果kelong事先详细看看本次评 选的办法,可能会便于理解。本次评选办法有一条是“如果某研究前沿中所包括 的高被引论文中有50%或超过50%的论文的自引率达到或超过40%,那么该研究前 沿将不会入选”,还有一条是“如果某篇所选出的高被引论文的自引率达到或超 过40%,那么该论文将不会入选”。那么我们看看龙桂鲁论文的被引作者都有哪 些,如图所示,列出前十人:   DENG, FG 38 29.2308 %   ZHOU, HY 28 21.5385 %   LI, XH 22 16.9231 %   ZHANG, ZJ 21 16.1538 %   MAN, ZX 19 14.6154 %   ZHOU, P 19 14.6154 %   LI, CY 18 13.8462 %   LONG, GL 15 11.5385 %   YAN, FL 10 7.6923 %   TANG, CJ 9 6.9231 %   图中可以看到,没有任何一个作者的自引超过40%,因此是符合游戏规则的。 至于为何标准是40%,而不是更低?更严格不是更好吗?我不是专家,无法回答 这个问题,但个人觉得,科学研究是有延续性的,因而一定程度的自引是允许的, 但是大量的自引又肯定是值得怀疑的,这是否也要区分学科领域呢?其实世界上 本来就没有什么明确的公认规定,40%就40%吧,谁让咱自己不能办个Web of Science的数据库呢?呵呵~   在kelong文章中,还有一句话,看起来比较别扭:“大家看看都是些什么破 杂志引用他的吧,一篇PRL的都没有,科学这样简单发展的话早就完了”。我不 是专业人士,也许物理界的PRL相当于我们的柳叶刀、新英格兰、BMJ之类的大牛 杂志,因此kelong的牢骚也许是有道理的。但我想问一下,难道只有被PRL或 Science或Nature引用才算是真正意义的引用吗?因为即使是发表在这些著名期 刊上的论文也有一部分论文的被引频次为零啊。此外,据我所知,国际上做引文 分析时,至少我还没有看到过对施引文献的期刊还加以区别的。我和龙某人是八 竿子打不着的关系,只是觉得kelong这句话可能有些“journal source歧视”吧, 其实我原来也有这个毛病,喜欢牛杂志,喜欢牛Paper,但后来发现自己太狭隘 了。举个例子,1937年Krebs & Johnson的关于Citric Acid在代谢中的作用被 《Nature》以“重要性不足”的理由拒绝,只好发表在一本普通期刊上,结果现 在我们都知道的“Krebs Cycle”在1953年赢得诺贝尔奖,可见Nature也不是篇 篇大牛。类似的案例应该还有,听说物理界有俩人:Igor and Grichka Bogdanov,这两位老兄当年(1999 & 2002)发表在《Theoretical Physics》杂 志的文章听说也是灌水的?还有贝尔实验室的Jan Hendrik Schon、韩国的老黄、 中国的……(此处略去若干名人的人名)   再来看看钟祖文1号《“汤姆森路透卓越研究奖”怎能如此忽悠中国人?》 一文中的失误,文中说:“从下表可见,该文一共被引用76次,可是74次是由他 们自己或他们的学生引用,只有2次是由别人引用,而且这个’别人’就是同一 个人,Alves, M, Univ Fed Rio de Janeiro, Inst Fis, Caixa Postal 68528, BR-21970970 Rio De Janeiro, Brazil”。钟祖文1号关于“该文一共被引用76 次”的说明是正确的,我在Web of Science也得到同样的数字,但没有发现“74 次是由他们自己或他们的学生引用”的情况啊?如图所示:   这些引用的机构分别是:   CHINA W NORMAL UNIV 27 35.5263 %   BEIJING NORMAL UNIV 21 27.6316 %   SHANXI DATONG UNIV 9 11.8421 %   CENT CHINA NORMAL UNIV 8 10.5263 %   GUANGZHOU UNIV 8 10.5263 %   SHENYANG INST ENGN 5 6.5789 %   SHENYANG NORMAL UNIV 5 6.5789 %   ZHANJIANG NORMAL COLL 5 6.5789 %   N UNIV CHINA 4 5.2632 %   XIAN JIAOTONG UNIV 4 5.2632 %   CHONGQING TECHNOL & BUSINESS UNIV 2 2.6316 %   在被引的76次中,其中有21次是北师大的自引,占27.6%左右,我怎么没有 发现74次的自引呢?莫非北京师大赵峥教授桃李遍天下,这些机构的作者都是他 的弟子?莫非钟祖文1号是北师大内部人士,能从上面这些数据辨认出赵峥教授 的各界门徒?不确定性太多了,我无法继续猜测下去。我和赵某人也素不相识, 但我觉得如果赵的弟子如此多产,也算师门之幸了。【方舟子按:这些引用机构 基本上都是国内不出名的大学或师范类大学,赵峥的论文是研究黑洞辐射的,难 道国内有这么多不知名大学在研究这么前沿的物理问题?所以很容易猜出其渊源 关系,何况知道底细的内部人士。赵峥是北师大物理系原系主任,弟子遍布国内 不知名大学,并不奇怪。即使不是弟子引用,基本上都被国内不出名大学引用, 恐怕也难说卓越。】   另外,在钟祖文1号《“汤姆森路透卓越研究奖”怎能如此忽悠中国人?》 文章中还有一个低级错误,文中说“只有2次是由别人引用,而且这个’别人’ 就是同一个人,Alves, M, Univ Fed Rio de Janeiro, Inst Fis, Caixa Postal 68528, BR-21970970 Rio De Janeiro, Brazil”,据我查询,这两个人 不是“同一个人”,一个是钟祖文1号提及的“Alves, M”,另一个则是“Ali, M. Hossain Rajshahi Univ, Dept Appl Math, Rajshahi 6205, Bangladesh Rajshahi Univ, Dept Appl Math, Rajshahi 6205, Bangladesh”【方舟子按: 此人在孟加拉的一所大学】,俩人的英文名称缩写确实比较接近,但风马牛不相 及,如此低级的错误确实不应该发生。如图所示:   该啰嗦的都啰嗦完了,只是希望借新语丝一角展示数据,并进行一些简单的 分析,提供一些大家忽略了的内容,这些被忽略的信息可能造成一些误解。至于 “汤姆森路透卓越研究奖”是否“忽悠人”,我把裁决权交给群众,我相信群众。 但从我个人多年使用汤姆森Web of Science数据库进行引文分析,使用汤姆森的 Endnote Web进行文献写作等经验来看,汤姆森是非常严谨认真的一家数据库服 务商,数据分析是比较权威可信的。而且严肃之余,有时候也“搞搞新意思”, 比如汤姆森科技经常愿意举办一些竞赛来活跃用户,他们每年都有一个本年度诺 贝尔大奖的预测,就是利用Web of Science的数据进行定量分析,确定化学、经 济学、生理学或医学及物理学等诺贝尔奖颁奖学科领域最具影响力的研究人员。 这些具有高影响力的学者因他们的论文被广泛引用,有望角逐诺贝尔奖。   比如2007年当年度的“诺贝尔生理或医学奖”预测页面是: http://scientific.thomson.com/nobel/med/,汤姆森科技预测R. John Ellis, F.R.S.(英国华威大学)、R. Ulrich Hartl(德国Max Planck生物化学研究 所)、Arthur Horwich(美国耶鲁大学医学院)、Fred H. Gage(美国索尔克研 究所美国)、Joan Massague  (美国纪念斯隆-凯特琳癌症中心)等五人可 能会获得2007年的“诺贝尔生理或医学奖”,结果预测全部错误,没有一个符合, 2007年的“诺贝尔生理或医学奖”获奖者是犹它大学的Mario R. Capecchi、加 的夫大学的Sir Martin Evans和北卡罗莱纳大学医学院的Oliver Smithies三人, 正当我暗笑汤姆森科技预测不准的时候,一个链接吓了我一大跳,汤姆森科技在 2006年预测了7位“诺贝尔生理或医学奖”,而其中的三位就是2007年的三个人, 而且是一个不差,全部在当时预测的七人之内,提供链接如下: http://www.thomsonscientific.com.cn/news_09_01.htm,是汤姆森科技在2006 年9月5日发布的。我和朋友笑谈,虽然汤姆森科技没有在当年预测准2007年的获 奖者,但居然在2006年“歪打正着”,提前一年预测准了2007年的诺奖获奖者, 因此2007年预测的五个人有可能会获得2008年的“诺贝尔生理或医学奖”,是否 如此,让我们拭目以待。   题外故事,也请kelang和钟祖文1号两位网友一笑。 (XYS20080608) ◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.dropin.org)(xys-reader.org)◇◇