(接上面)



所有跟贴·加跟贴·新语丝科技论坛

送交者: 鲁晨光 于 2005-1-04, 22:12:58:

回答: 钟义信的全信息公式有意义吗? 由 鲁晨光 于 2005-1-04, 22:06:43:

图2 模糊集合隶属度及模糊测度


那么这三个语句或集合的模糊度如何呢? 计算可知, F(A1)=0, F(A2)大概是0.2-0.4比特, F(A3)=1比特达最大。这完全符合我们通常的”模糊”概念。

但是这样一个模糊测度怎么能代表语法信息或语义信息呢? 难道最模糊的语句y3=”不确定明天有雨还是无雨”提供信息量最大? 这显然荒谬! 因为根据常识, 这样的模糊语句不提供任何信息! 相反, 倒是模糊度小的语句y1和y2可能提供信息。

十多年前,钟义信的信息公式与现在的公式形式上有些不同。他在Shannon熵、DeLuca- Termini熵…上加上系数或开关函数,说那是全信息熵。 我争论说,常识告诉我们,模糊性只能减少信息,不能增加信息【7】,不应该简单相加。 他说他的公式是熵公式,先验熵减后验熵才是信息。但是我还是说两者相加没有道理。现在他同样可以说:上面的信息公式是熵公式。那么我们看,用两个Deluca-Termini测度相减,即用公式


信息=先验模糊熵-后验模糊熵 (2)

看是否可以得到合理结果。

假设原先有极模糊预言y3=”不确定明天有雨还是无雨”(从常识看等于废话), 现在有预言y1=”明天肯定无雨”, 于是有F(A3)-F(A1)=1-0=1比特. 信息达最大。这结果好像不错。 但是这里同样有问题:


1) 假如明天下雨,预报错了,信息量也是这么多吗?按照常识,预测错了, 信息量是负的才对。可是钟义信采用的DeLuca Termini公式和其熵差公式太简陋了, 根本无法顾及预言对错问题。没有对错检验, 如何度量语义信息?


2) 假设原先我们用y4=”明天可能有雨也可能无雨”而不是y3, 集合A4的隶属度或命题y4的可信度总是1,那么F(A4)也是0 , 信息=F(A4)-F(A1)是0。而常识告诉我们,如果真的无雨,y1提供的信息会大于0。其实, y3和y4是一样的,是废话,有等于无。按钟义信的公式,信息大小是由这两个无用的预言决定的,选择y3, 还是y4, 信息大小截然不同。


3) 按照常识或Popper的科学进步理论, 把一个越是偶然或特殊的事件预测对了,信息就越多。比如“明天有特大暴雨”提供的信息就比“明天有雨“提供的信息多,如果两者都是对的。而按公式(2), “明天有雨”提供的信息可能还多些, 因为它更加不模糊。这是违背常识的。

4) 按公式(2),语义信息最大量是1比特(按图1所示钟义信的语义信息公式, 语义信息最大量是2比特)。这是不合理的。我们用Hartley公式粗略地计算, “特大暴雨”的信息I=log(总天数/特大暴雨天数)也不止2比特。一个好的广义信息公式应该和经典信息公式兼容,这在钟义信那里完全做不到。

5) 我要问:按图1或公式(2)算出的信息I(T;X)是一个语句y(比如“明天有雨”)和它的否定语句not y(“明天无雨”)提供的平均信息,还是单个y提供的信息? 如果是平均信息, 应该有两者出现的概率才是(现实中等概率情况是没有的)。如果是单个语句信息,通过计算我们会发现, y和not y 提供的信息一样多。事实怎么会有这种情况呢? 把有雨说成“有雨”和把有雨说成”无雨”,语义信息是一样的吗?

6) 语言信息交流时, 可选择语句一般来说有许多,比如天气预报语句有:“有小雨”, “小到中雨”,“中到大雨”….这时候如何用Deluca-Termini公式?该公式用到A和非A两个集合隶属度,是因为两者是互补集合。语句多时,考虑互补集合,问题就复杂了,采用DeLuca-Termini公式显然不行。

上面的例子中,我们把天气预报换成粮食产量预测,股市指数预测,问题是一样的。如实描述事实的语句是预言和事实符合情况下的特例,问题2)-6)依然存在。这些都说明, 用模糊度或模糊度的差根本就不能解决语义信息度量问题!钟义信用它们只能得到荒谬结果!


4.如何理解语用信息?

效用在经济学中是非常基本的概念, 但是也是没有明确定义的概念。 我们可以用获得的财富价值作为效用, 也可以用价值的对数作为效用. 甚至也可以用达到目的的程度作为效用。 钟义信用的就是后一种, 因为其最大值是1.

首先,其通信模型含混不清。 我不禁要问: 究竟什么提供关于什么的信息? 是关于效用的语言或预言提供信息, 还是实现效用的进度ui提供信息?


为什么效用函数可以放到对数后面, 而且这样就表示信息? 无论是Shannon公式还是Deluca-Termini公式, 对数里面放的都是不确定性测度。 概率测度pi是客观事件的随机不确定性测度, mi是主观概念外延的不确定测度[6]。 而效用和价值概念完全不同,他们不是不确定测度。

我觉得, 钟义信对Weaver效用信息的理解很成问题。 在我看来,只有服务于效用或围绕效用而优化的语义信息,并没有用效用计算出的所谓的效用信息,或者说,用效用的对数计算出的东西不是信息。按照钟义信的做法, 好像我们计算什么信息就要把什么量放到信息公式中去。 我们计算能源信息,是否就应把能量数值放到公式中去,计算温度表信息就要把温度数值放到公式中去?

虽然,我也有类似做法,我在《投资组合的熵理论和信息价值》里把资本价值(未必小于1 )放进某种熵公式里了, 但是我用来表示的不是信息,而是资本增值速度, 表示多少轮投资后,平均翻多少倍,意义很明确。钟义信的语用信息I(U;X)究竟表示什么?

我们还是用天气预报来检验他的公式。假设,某林场希望在最近一次下雨前后栽树, 所以对下雨的时间要掌握准确。差错时间越长,损失就越大。我们假设效用函数是

ui=1-f(xi-x0) (3)

其中x0是实际下雨时间, xi是预测下雨时间。1是准确预测时的效用值,f(xi-x0)是|xi-x0|的单调增加函数, f(xi-x0)最大值是1 。ui就是钟义信效用公式中的un. 按照上面效用信息公式, ui=1,2,…n, 确定了, 语用信息I(U;X)就确定了, 和预测完全无关? 不管你预测哪天下雨, 结果都一样。这叫什么效用信息?

即使只带入实际预测的时间xj一个值进公式,算出uj, 别的ui不要了,或者让别的ui都等于uj, 结论也奇怪:不是预测最准的时候(xj=x0),信息量最大,而是效用函数uj=0.5时信息量最大。这样的语用信息有意义吗?

我记得在纪念Shannon信息论诞生50年的宜昌信息论会议上,北邮的吴伟陵老师的报告非常精彩,他说Shannon信息论的核心是他的通信优化思想。 我以为Weaver提出语用信息也是从优化的角度来讲的。研究语用信息的目的是要:如何用尽可能少的信息(Shannon信息或语义信息)得到尽可能多的效用,或信息价值。我很难相信钟义信对Weaver思想的理解符合其原意。

5.结束语

我最感奇怪的不是钟义信那些公式的荒谬, 而是如此荒谬的东西居然能反复出现在那么多杂志、书籍和演讲台上,没有人指出错误,或者指出了,没能让钟义信纠正。北邮怎么了?中国信息论学会和通信学会怎么了?中国学术界怎么了?

注释:

【1】The Mathematical Theory of Communication, Claude E. Shannon and Warren Weaver, The University of Illinois Press, 1963

【2】参看钟义信的专著:

《信息学漫谈》,中国科学技术出版社,1884

《信息科学基础》,和平出版社,1984

《信息的科学》,光明日报出版社,1986

《信息科学原理》,福建出版社,1988

《信息技术导论》,上海科学技术出版社,1994

《信息科学原理》北京邮电大学出版社(再版),1996

钟义信主页介绍说:(他)具有重要创新意义的学术贡献主要包括 “知识论”、“全信息理论”、“意识机模型”、“信息科学原理与信息科学方法论”、“信息基础结构理论模型”等。 其中《信息科学发展研究》和《信息科学原理》被评价为“开创性著作”,“由信息论到信息科学的标志”,分别获得邮电部科学进步一等奖和二等奖, "基于全信息理论的智能型自动文摘系统" 等多项研究成果通过专家鉴定,评价为国际先进水平。

【3】我的个人主页: http://survivor99.com/lcg

【4】鲁晨光,《广义信息论》,1993,中国科学技术大学出版社。

【5】来自网页:http://coral.lili.uni-bielefeld.de/Classes/Winter98/LingHyper/Hyptext/Text/hyptext/node8.html

【6】参看:自然语言理解与全信息理论――方法论的探讨及应用,网址:http://www.china-language.gov.cn/doc/NLP0/06.pps

【7】后来我发现,在预测不准时, 模糊性可以减少负信息的绝对值,是一种保守策略。




所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝科技论坛