◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇

　　对《南京大学教育部长江学者特聘教授周志华学术剽窃》一文的答复

　　作者：周志华

　　方先生，您好：

　　很敬佩您长期坚持为净化国内学术环境所做出的努力。今天下午得知本人被
举报剽窃，很感惊讶，下面是对“一个知耻的人”的举报的答复。若方便的话，
烦请刊登为盼。

　　为便于下面的说明，先将涉及的论文按原文提及的顺序列出如下： 
　　[1] M. P. Perrone, L. N. Cooper. When Networks disagree: ensemble 
method for neural networks. Artificial Neural Networks for Speech and 
Vision, 1993, 126-142. 
　　[2] Z-H Zhou, J-X Wu, Y. Jiang and S-F Chen, Genetic Algorithm 
based Selective Neural Network Ensemble, IJCAI’01, pp. 797-802 
　　[3] Z-H Zhou, J Wu, and W. Tang. Ensembling Neural Networks: Many 
could be Better than All, AIJ 2002, 137(1-2):239-263. 
　　[4] 吴建鑫，周志华，沈学华，陈兆乾，一种选择性神经网络集成构造方法，
计算机研究与发展，2000年，第9期，1039-1044 
　　[5] Z-H Zhou, J-X Wu, W. Tang, Z-Q Chen, Combing regression 
estimators: GA-based selectively neural network ensemble. 
International Journal of Computational Intelligence and Applications, 
2001, 1(4): 341-356. 
　　[6] Z-H Zhou, J-X Wu, W. Tang, Z-Q Chen, Selectively ensembling 
neural classifiers. IJCNN02, Honolulu, 2002. 
　　[7] J-X Wu, Z-H Zhou, Z-Q Chen. Ensemble of GA based Selective 
Neural Network Ensembles. 8th Int. Conf. on Neural Information 
Processing, 2001，Shanghai, 1477-1482 
　　[8] N. Li, Z-H Zhou. Selective Ensemble Under Regularization 
Framework. MCS'09, LNCS 5519, 293-303

　　既然列出了这么多文章，我想很有必要简介一下这些文章涉及的工作：

　　这些都是“集成学习”（ensemble learning）领域的研究工作。90年代初
的几项工作（例如Perrone & Cooper的工作[文1]，这是该领域的经典工作之一，
被引用500多次）显示出，将多个学习器结合在一起使用可以比只使用一个学习
器更好。此后，很多人开始研究如何构造更好的集成，这个领域则成为一个热门，
甚至在97年的时候被一位权威学者称为机器学习当时四大研究方向之一。我们工
作的贡献是揭示了“学习器越多性能越好”这个常见的想法是不正确的，应该是
“many could be better than all”，即选择部分学习器集成可以比使用所有
学习器更好，并且提出了有效算法，此类方法目前被称为“选择性集成”
（selective ensemble），后来有不少学者开展这方面的研究工作。关于我们工
作发展的过程以及上述文章之间的关系，我们放到后面介绍，下面先重点回复
“一个知耻的人”的举报：

　　有上面的介绍（以及后面关于我们工作发展的介绍）可以看出，我们的工作
的出发点、思想、以及主要贡献，和[文1]是完全不同的。其实，只要读一下[文1]
的摘要就可以知道，[文1]提出的方法的第一个性质就是：“It efficiently 
uses all the networks of a population – none of the networks need be 
discarded”，即它使用所有学习器进行集成，而这和我们的贡献——“many 
could be better than all”，即使用部分而不是所有学习器进行集成是截然不
同的。

　　“一个知耻的人”说“IJCAI01的论文中对前24个公式的讨论属于抄袭”
（以及“扩展后的AIJ针对1～17，29～32的讨论属于抄袭”，这两者是一回事）：
如果认真读过这些公式，就可以看出这个指控很荒唐。[文2]的前15个公式都是
本领域的基础知识。前10个式子分别定义了什么是加权分类器，什么是平均误差，
什么是总误差，式11-13告诉读者什么是相关系数，随便找一本统计教材就可以
看到相关描述，式14和15则是把上面这些式子经过代入后，获得式16以便下面讨
论。这些常识性的东西，我们相信本领域的任何读者都不可能认为我们想把它们
claim成自己的贡献，我们也不相信任何还在世的人（包括Perrone和Cooper在内）
会claim这是自己的贡献。从式17开始到20，通过讨论使用N个和N-1个学习器结
果的差别，我们得到了选择性回归集成的理论结果，这才是我们在[文2]的理论
推导中的贡献。“一个知耻的人”指控这抄袭了[文1]，但我们实在不知道[文1]
中什么地方有这样的结果。如果有，那倒是非常奇怪的，因为这和[文1]所希望
的要把所有学习器全部集成起来是截然相反的。式21到24，是用拉格朗日乘子法
的一般形式，一般做法是直接用它来求解（例如[文1]中），而我们这里是描述
这个通常的一般做法，然后紧接着在式24后指出，这样做是有问题的，我们不使
用这个方法。我们在这里的处理和[文1]完全不同：我们指出协方差矩阵可能病
态，所以无法直接求解，所以后面我们才引入了GA；而[文1]对协方差矩阵进行
了假设，对学习器类型进行限制，使其可以直接求解；我们的目的和他们截然不
同，我们希望选择出一部分学习器进行选择性集成，而他们希望使用所有的学习
器进行集成。他们的做法正是我们所认为不好的做法，怎么可能从他们那里“抄
袭”出我们的结果呢？

　　对我们这个工作本身来说，如前介绍的，想法和[文1]完全不同，推导上用
的是很基础的技术，并没有特别用[文1]中的东西，所以我们在文章页面比较宽
松的时候会提一下Perrone和Cooper的这个早期工作，而IJCAI限制很少的篇幅
（最多6页），就没有提起。前面说了，[文1]的主要贡献是显示出使用多个学习
器会比使用一个更好；而这在我们做[文2]工作的时候，这已是众所周知的事情
了，Perrone和Cooper的这个工作是这个领域的经典工作之一，不用说大家也知
道“使用集成比使用一个学习器好”不会是我们的新贡献。

　　“一个知耻的人”说[文4]“清楚地表明所有其他理论讨论（包括所有在上
两篇被其佯称作自己的贡献的理论讨论部分）都是源自”[文1]：这很奇怪，我
们在什么地方表明的？我们文章中引用[文1]的地方是这样说的：“式10（即[文2]
的式16，前面解释过）与Perrone等人得到的结果是一致的”，请注意，[文1]中
并没有完全一样的式子出现，我们在这里不仅没有“佯称作自己的贡献”，反倒
是明确告诉读者，类似含义的结果在Perrone和Cooper的文章中也有。

　　“一个知耻的人”说对我们IJCAI’01的文章来说，“理论讨论远比所谓的
一种解决问题的方法重要的多”：很遗憾，我们认为这个观点是不准确的。[文2]
中的理论推导，在技术上并没有特别之处，并且推出的结果无法直接用于求解实
际问题（原因我们在文章中说了），所以我们才需要专门去设计一个有效的算法，
否则这个结果的意义就不大了。文章提出的GASEN算法，使用大约20~35%的基学
习器就可以达到与实验对比方法相当甚至更好的性能，这在当时是让大家很欣赏
的。例如INT. J. COMP. INTEL. APP.的客座编辑在“编者按”（“editorial”）
（附件）中是这样介绍我们工作的：“It is remarkable that this strategy 
performs better than well-established ensembling approaches, …, at a 
much lower computational cost”。由此可看出，被特别欣赏的是这个算法，
而不是[文2]中简单的推导。另一方面，如果考虑理论推导的价值，则[文2]是不
完整的，因为对当时集成学习所重点研究的分类与回归这两大部分来说，而[文2]
只考虑了回归，对更重要的分类问题没有探讨，并不知道是否在分类上也能得到
相似结论。我们[文3]的一部分工作，就是把关于分类问题的推导做进去，两部
分做完整了，到此我们才能得到“Many could be better than all”这个后来
比较有影响的结论。

　　“一个知耻的人”说[文7]“更清楚的写着所有理论讨论源自 Perrone和
Cooper 的那篇文章”：不知道我们在[文7]的什么地方写了这样的话。从前面对
工作的介绍可以看出，Perrone和Cooper的提出的是要“将所有学习器结合在一
起”，而我们提出的是“将所有学习器结合在一起不好，应该选一部分来结合”，
怎么可能源自[文1]？实际上，两者截然相反，[文1]提出的方法最后是使用所有
学习器，这和我们的想法甚至在一定程度上是对立的。

　　“一个知耻的人”说我们在[文8]中“进一步明目张胆地明确地将这些东西
全部归功于自己”，其论据是这句话：“Zhou et al. [24] analyzed the 
relationship between ensemble and its component learners from the 
context of both regression and classification, and proved that it may 
be better to combine many instead of all of the learners.”这句话的意
思是说我们对回归和分类情形下集成和个体学习器的关系分析，证明了用一部分
学习器集成会比用所有学习器集成更好（“many could be better than 
all”），这是什么“迷天大谎”呢？

　　我们的工作是从1999年开始的，当时我是博士二年级学生。我们首先考虑回
归问题，提出了可以从一组回归学习器中选出若干个体学习器构造集成的GASEN
算法，这一工作[文2]在2001年的IJCAI会议上获得最佳论文提名，收到了AI 
Journal的扩展邀请（附件），以及INT. J. COMP. INTEL. APP.的Special 
issue的邀请（附件）。AI Journal则是IJCAI会议的长期合作者，而INT. J. 
COMP. INTEL. APP. Special issue的客座编辑是会议的程序委员会委员（当时
IJCAI的程序委员会委员相当于现在一些会议的领域主席），希望邀请当年IJCAI
会议上“NN & GA”论文扩展成册以促进该方面的研究，邀请哪些文章，会议和
两个期刊应该都进行过讨论。我们正好有两个方向的扩展工作，一个方向是继续
研究[文2]的GASEN算法，[文2]已经显示出它很有效，我们希望从
accuracy-diversity的角度进一步探讨它奏效的原因。后来我们把这方面的扩展
工作提交给了INT. J. COMP. INTEL. APP.（[文5]）。另一个方向，是我们意识
到这个工作有更重要的意义（即后来在[文3]标题上明确宣称的“Many could be 
better than all”），而不仅仅是一个算法。由于集成学习的研究当时主要集
中在分类和回归上，分类问题的重要性更大，因此我们必须去研究是否在分类问
题上也可以取得类似的结果，如果可以的话，与回归的结果合起来，才是一个完
整的结果。首先我们做了些实验，发现确实是可行的，一些实验结果就总结在
2001年下半年投出、2002年5月发表的会议文章[文6]，在这个文章中我们还尝试
了通过二值编码代替实值编码来提高算法效率。然后我们对分类问题进行理论探
讨，得出了与回归类似的结论，这个工作和[文2]的结果合起来，又重新做了大
量实验验证，最后的结果送给了AI Journal（[文3]）。一直和我一起参与上述
工作的是1999年硕士一年级的吴建鑫，他一定意义上是我协助指导的硕士生。当
时国内的习惯是如果觉得一个工作还不错，就写一篇中文再写一篇英文，希望国
内外同行都能看到。现在我们知道，这个做法是错误的。[文4]第三作者是一位
当时和我一起研究遗传算法的硕士生，第四作者是吴建鑫的硕士导师；[文2]第
三作者是参与了研究工作讨论和英文修改的一位硕士生，第四作者是我的博士导
师。后来我们在进行扩展工作的时候，新入学的一位一年级硕士生加入进来，最
后在撰写[文3]的时候，根据对[文3]的实际贡献进行了作者排序。
　　“一个知耻的人”指出的[文7]，是我们在IJCAI文章之后，提出可以进行
“集成的集成”。后来我们意识到，虽然实验性能不错，但我们没有发现“二级
选择性集成”在本质思路上较“一级选择性集成”有更值得深究的地方，所以这
方面后来没有进一步研究。[文8]则是我指导的一位硕士生去年毕业论文中的一
个结果，我们今年整理出来发表，这个工作是基于正则化框架提出了一个新的选
择性集成算法，与以往的选择性集成一般都是通过启发式方法进行选择相比更强。

　　在上述事情中，我们反思自己也存在问题：
　　1) 一个工作，写了一个中文版一个英文版（[文2]、[4]），这在当时很普
遍，我们当时也觉得这是很自然的，没觉得这不对。我们如果能早点意识到这是
不对的，就会更好。
　　2) 接受了两个journal的扩展邀请，虽然提交的扩展内容不同，但即使两个
期刊有过协调，这样做仍然不好。一个工作应该只有一个journal版，否则对工
作本身也会有分散注意力的负面影响。
　　3) 对一些本领域研究人员熟知的结果，考虑到其他领域的人今后可能会来
读，应该再明确说明这些是基础知识，不是本文的贡献。

　　我和我的研究组会在今后的工作中对自己更加严格要求，欢迎实事求是的监
督和关注。

(XYS20091022)

◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇