◇◇新语丝(www.xys.org)(xys5.dxiong.com)(www.xinyusi.info)(xys2.dropin.org)◇◇   从机器学习到信息融合   作者:老母   在人工智能领域,有一个重要的分支就是研究如何让计算机通过“学习”而 具有类似人所拥有的某种“智能”。例如,我们给计算机提供一些正常人和癌症 患者的病理切片图像,希望计算机能通过学习自动对新的病理切片图像进行分类。 又比如,我们在读取电子邮件时把一些垃圾邮件标记出来,希望邮件服务器能够 通过学习自动标识并过滤新的邮件。更有挑战性的例子包括,通过学习股票交易 的历史数据希望能对股票的未来价格进行预测;通过学习某个人上网购物的历史 数据,对其感兴趣的产品进行预测,从而提供更个性化的产品推荐等等。很多机 器学习的问题可以抽象为,给定一些训练样本,如何让计算机自动设计出一个分 类器或者预测器,从而对新的输入样本进行分类或者预测。如果计算机的分类或 者预测精度达到或超过一个正常人通过学习所能达到的水平,我们就会觉得计算 机具有了某种意义上的智能。   在设计分类器时,有人认为应该找到输入数据中对分类真正有帮助的信息, 所以很多分类问题又被称为模式识别。这里的模式可能是垃圾邮件里特定的广告 词,网上购物时用户进行价格、功能、品牌比较的点击记录等等。经过模式或特 征的提取,计算机最终得到的分类器其实不过是某种算法程序,它能够把任意的 输入映射到分类空间中的某个特定类别。为了分析和比较分类器的性能,人们通 常假定训练和测试分类器的样本都来自同一个未知的统计分布,而最好的分类器 就是从统计意义上讲,能够让分类错误期望最小的算法。现实的问题中,我们无 法验证训练和测试的样本是否服从同一统计分布,只能希望当训练样本足够多时, 能使分类错误在训练样本中最小的算法同样能对测试样本做出足够好的分类。事 实上,有限的训练样本只能从具有某种性质的分类器集合中筛选出最好的分类器, 而候选的分类器集合必须和训练样本数量相关,才能保证对训练样本分类错误最 小的算法对测试样本分类错误也足够小。在上一世纪六十年代末,前苏联数学和 统计学家Vapnik与Chervonenkis共同创立了统计学习理论,给出了在训练样本足 够多时,能够通过让某种训练误差最小化而使分类器最终收敛到最佳贝叶丝分类 器的方法,并且证明在训练样本有限时,对测试样本的分类错误取决于候选分类 器集合的VC维数。这一理论在很长时间内被忽视,直到上个世纪九十年代Vapnik 及其合作者构造出了支撑向量机,使得分类边界到不同类别样本间的距离最大化, VC理论才正式成为机器学习领域最具影响力的方法。与此同时,核函数的使用使 得支撑向量机的方法能够适用于不同的特征空间,从而在有效控制分类器集合的 VC维数的同时,无需进行人为的特征提取。自此以后,自动机器分类方法中支撑 向量机与核方法占据了显著位置。Vapnik理论的优美之处在于,它避开了试图通 过训练样本估计其分布的传统统计方法(由于信息不完全,通过有限样本估计分 布函数是一个病态问题,解不唯一,需要额外加限制条件),而直接对测试样本 与分类器间的关系进行刻划,找到了控制模型复杂度的直接途径。   对统计学习理论持保留态度的学者,主要包括热爱贝叶斯统计方法的(相信 在有样本统计分布先验知识的情况下,贝叶斯决策理论可以做得更好);相信可 运行的计算机代码多过理论分析的(认为统计学习理论给出最差情况下的性能估 计不具代表性,实际用户的感受更接近平均意义下的分类性能测试)。这里边不 少人喜欢简单的决策树多过支撑向量机,而且怀疑分类器性能的好坏取决于在设 计之初是否对VC维数直接进行控制。不管怎样,随着计算机性能的提高和云计算 的兴起,大规模大数据量的机器学习问题层出不穷,很多训练样本没有办法一一 给出类别,有些先验知识没有办法用训练样本表示,新的问题呼唤新的理论与方 法。机器学习逐渐从重点关注有教师学习转向无教师学习,强化学习等多个新方 向。在新世纪初,Vapnik又提出有隐藏信息情况下的机器学习框架,并试图对某 些训练过程中的隐藏信息加以刻划,证明同样基于支撑向量机的分类器学习,使 用特殊的信息后,期望性能的收敛速度比没有教师提供特殊信息时要快(原先需 要100000个训练样本才能达到的分类精度在“有教师帮助”的情况下只需要320 个左右的样本)。今年信息融合年会的特邀报告中,Vapnik专门提到训练样本以 外的隐藏信息普遍存在,有些信息甚至无法以科学/统计模型描述。他举例说, 东方药物(比如中药)有可能对西药治疗提供隐藏信息(机器学习需要拓展另类 模型),动物的“智能”可能对人类智能研究提供隐藏信息(认知科学和人工智 能的理论基础需要拓宽)。与会听众中不少人认为,Vapnik的“新理论”中科学 成份不足,目前很难看出它有统计学习理论的深邃和支撑向量机方法的实用。而 机器学习领域里新兴起的主动学习方法,看上去比寻找Vapnik所描述的(训练样 本之外的)特殊知识更靠谱。   如果说要想让机器学会运用复杂的概念进行分类和预测必须对训练样本和概 念集合/模型有所要求,那么最终机器学会的并不是我们通常所想象的智能,而 是按照统计学习理论刻划的最佳分类/预测器。机器的训练过程和人的学习过程 也不近相同,因为它没有自己创造的评价函数和优化方法,而是完全根据训练样 本,按照人为设定的程序,找到某种输入和输出之间的映射。我们评价机器学习 的成果也是基于它对测试样本分类或预测的精确度,而不是什么抽象的学习能力 或者自我修正评价函数的算法。然而,从另一个角度来看,计算机的数据处理速 度要远强于人脑,只要机器学习算法的复杂性不随问题规模增长太快,机器在模 式识别和聚类方面完全可以比人做得更好。可以说,机器学习的理论基础和应用 范围越来越偏离人工智能最初的构想,而逐渐变成人脑进行大规模数据处理的辅 助工具。   当我们获得数据/信息的渠道越来越多,成本越来越低,对大量原始数据进 行处理变成了机器学习里非常重要的环节。如果把不同数据所代表的关键信息融 合起来,那么我们不只可以训练机器进行模式识别和预测,还能让它作为辅助决 策工具,帮助人们参与投资管理、资源调度、战略形势评估等等复杂的社会行为。 信息融合作为一个新兴领域,想系统解决的正是如何有效地获取和处理大量相关 数据,从而把某些估计、分类、预测等传统的机器学习问题拓展到更广阔的应用 中去。常言道,三个臭皮匠,顶个诸葛亮,在机器学习问题上可以理解为,多个 不同的、性能一般的分类/预测器可以通过某种信息融合方法变成一个性能非常 好的分类/预测器。R. Schapire和Y. Freund提出一种提升分类器性能的方法, 简单来说就是如果多个不同分类器分别犯不同的错误,那么通过多数原则是有可 能修正每个分类器所犯的绝大多数错误的。这一思想也适用于分布式计算。可以 设想,每个“智能代理”个体都只有有限的数据采集和处理能力,由于不同代理 间可能提供互补的信息,通过有效的数据融合算法,我们期望能纠正个体所犯的 一些分类错误,从而减小最终的估计/预测误差。   尽管信息融合看上去很有前途,但是它不象机器学习那样有很漂亮的统计学 习理论作基础,而更多的是先有实际问题需要解决,人们试了各种估计、分类、 预测器的融合算法,再想办法解释为什么这么做——其中有些做了不太合理的假 设以期套用经典理论(比如投票理论、公共选择理论),有些凭借工程直觉,却 缺乏理论支持其更广的应用范围(比如消息传播、模糊推理)。最致命的是,每 个智能代理个体的理性决策未必能保证信息融合的整体最优。V. Krishnamurthy 在今年信息融合年会报告上举了个例子,如果有一群人想挑选一家最好的餐馆, 假定每个人都有同样的偏好,他们都希望根据观察别人的选择做出对自己最有利 的决策,那么每个人都会选择就座率最高的餐馆。然而,由于缺乏先验知识,最 初的选择有很大的偶然性。又由于基于理性推导出的从众原则,很可能大多数人 的“理性”决策最终并没有选对最好的餐馆。当然了,如果这个选餐馆的游戏能 重复进行,那么每个人在最开始的阶段都应该尽可能随机地去试任何一家餐馆, 等到了一定阶段,再根据就座率(和自己的以往经验)决定哪家是最好的餐馆。 在强化学习当中,这相当于每个个体都要先通过探索获得必要的知识,之后才能 利用别人的信息进行有效的数据融合。在有限次的试验中,找到如何合理切换随 机探索和利用探索成果的方案并不容易。即使能够设计出数据获取(随机探索) 与数据融合(多数原则)间转换的最优策略,我们也无法保证每个个体都足够 “理性”——在起始阶段牺牲一定的个人收益,从而为将来大家的共同收益做应 有的贡献。这有点象经济学领域里常举的囚徒悖论,因为信息不完备,理性的个 体所做的最优决策从全局角度讲可能很糟糕,而绝大多数信息融合问题无法绕开 各种复杂的搏弈场景,要想在理论上找到有效的信息融合机制设计,其难度与经 济学理论里的制度设计问题基本相当。   信息融合目前已经吸引了传统的人工智能和机器学习领域的一些学者与统计 分析、信号处理、优化决策、经济学、认知科学等诸多其他学科的研究人员共同 探讨可行的融合理论框架和有效的算法。作为一个年轻的交叉学科,信息融合目 前还不能把人与机器在数据处理上各自的优势完美地结合起来,但是它的发展潜 力非常大。也许在不久的将来,人们的学习、交互以及其他社会、经济行为都离 不开信息融合所提供的“辅助知识”,而信息融合的结果又将推动新的数据获取 与分析方法的研究。最理想的预测是,信息融合就象传统的物理、化学等学科那 样进入长久持续发展的轨道。 ◇◇新语丝(www.xys.org)(xys5.dxiong.com)(www.xinyusi.info)(xys2.dropin.org)◇◇