【新语丝电子文库(www.xys.org)】 ———————————————— (摘自“新语丝·读书论坛”http://www.xys.org/cgi-bin/mainpage.pl 新语丝海外站点被中国方面屏蔽,国内网友需要用代理服务器访问) 改中文上千年的毛病,加个空格好不好? 米阿伦    表面上看,这篇文章要讨论的是一个非常小的问题:书写空格。然而,对所 有的语言文字的数据管理来说,这一个小小的空格却是牵一发而动全身的问题。 在1999年9月和前些年召开的联码(UNICODE)国际会议上,许多著名信息产业机 构派出重头专家参加会议,说明了空格在网络国际化时代的重要意义和本机构的 技术政策性见解。所有的编程语言都有字符串处理标准,其中空格是判断字符串 起始终止和长度的重要标志之一。在计算机网络通用语言HTML/XML的标准规范里, 有专门章节说明空格在网络环境下对数据管理的重要性。对中文信息产业发展来 说,如何看待空格是非常重要的技术发展方向性的问题,甚至牵涉到信息时代文 化教育事业的发展进步。对中文要不要一个小小的空格,在美国等地的讨论已经 多年。这些年,随着中文信息产业的发展和网络全球化对中文数据需要的增加, 海外争辩此起彼伏,在中文故乡,却基本上无人问津。我相信,中文文字书写要 不要空格的问题最终不是在美国等地解决,而必须在中国解决。为此,国人有必 要对空格的意义有更深入的了解和讨论。   空格和词界:世界通用的数据处理标准   词界,WORD BOUNDARY,是数据管理中最基本的标准参数之一。词界的标志是 两个词之间的空格。没有词界,连基本阅读和词典编辑都很难做成,更不要说全 面的数据管理了。中文信息处理的词界问题非常突出。例如,如果将“北京东长 安街五号”的现代汉语拼音写成:BEIJINGDONGCHANGANJIEWUHAO   读起来就困难,做字符转换和数据处理也可能会得到错误结果。如果写成: BEIJING DONG CHANG'AN JIE WU HAO   读起来很清楚,做数据处理就能避免发生错误。利用内码做处理,道理一样。 随着计算机网络全球化和多语言文字化,加上拉丁文字的单字节和中文等东方文 字的双字节在网络上混合使用,如何使用空格和词界做国际间的数据交换和管理, 就显得更加重要了。目前,世界上只有极少数语言文字的书写方法没有词界,中 文的汉字书写方式是其中之一。从20世纪60年代研制中文计算机输入到现在,三 十多年了,中文信息处理技术的发展还是在输入法和储存检索方面打转,难以上 升到使用中文做全面的中文数据管理的水平。其中原因很多,汉字书写方式没有 词界是其中最明显的牵制因素。为了能使用中文来实行全面的中文数据管理和赶 上世界先进水平,中文书写方式需要增加空格和建立词界标准。   建立中文词界标准的重大意义   如果没有词界,那么,数据管理就会发生错误。这里用经常出现的一个情况 举例说明。有一个名单:欧瑛洁小姐,李冬梅小姐,欧阳洪先生,李冬先生。   任务:按姓名顺序作分类排序。不管用不用计算机,也不管用什么方法,作 业过程是一样的。这里,我用现代汉语拼音方案来说明。用这个方法对上列名单 作排序有3种选择:一.字基:以单字为基本单位,所有单字连写在一起,没有词 界。二.部份词界方法:姓名和称呼是两个词,用空格分开写。三.用全部词界 方法:姓,名和称呼是三个词,用空格分开写。三种选择导致三种不同的排序结 果:   字基,姓名和部份词界,姓名连全部词界方法称呼字字连写写,与称呼分开 写姓,名,称呼李冬梅小姐李冬先生李冬先生李冬先生李冬梅 小姐 李冬梅小姐 欧阳洪先生欧阳洪 先生 欧瑛洁小姐欧瑛洁小姐欧瑛洁 小姐 欧阳洪先生   第一种方法排序的结果显然错了,李冬先生应该排在李冬梅小姐的前面。发 生错误的原因:单字堆积书写方式使称呼和姓名混肴不清,自然就按照“先”字 的拼音XIAN排在“梅”字(MEI)的后面了。第二种方法采用部份词界,解决了姓 名和称呼的问题,可结果还是有错。“欧阳洪”的“欧阳”是两个字的姓,而在 “欧瑛洁”中的“欧”是一个字的姓。一个字的姓应该排在两个字的姓的前面。 部份词界方法使“瑛”排在“阳”的后面,造成部份排序错误。用第三种方法, 即全部词界方法,可以得到完全正确的排序结果。以下是用微软公司WORD 97版和 2000版的各种方法做的排序结果:   笔划(递增)拼音(递增)数字(递增)日期(递增)李冬先生李冬梅小姐欧瑛洁小 姐欧瑛洁小姐李冬梅小姐李冬先生李冬梅小姐李冬梅小姐欧阳洪先生欧阳洪先生 欧阳洪先生欧阳洪先生欧瑛洁小姐欧瑛洁小姐李冬先生李冬先生   很清楚,全错了,没有一个排序结果是对的。自称拥有“世界级”技术的微 软公司,连这么简单而又明显的数据处理错误都看不出来吗?在微软公司的宣传 材料中说:比尔·盖兹非常清楚和重视中文市场的问题,并且通过微软中国研究 院吸收了中国最好的人材,为中文信息产业做出了贡献。这样的明显的错误,盖 兹先生重视了吗?这样的明显的数据处理错误,就是微软公司对中国的贡献?让 那么多的中国优秀人材去搞所谓“智能输入”,却搞出了连基本数据管理都做不 好的东西。这不是在糟蹋中国人才吗?排序是全面数据管理的入门和基矗如果排 序错了,那么,其它数据管理就可能会通通错了。上面排序例子的数据结构和作 业要求是最简单的,却足以说明:在做数据管理的时候,是否使用全部词界方法 有非常重要的意义。说一个小小的空格重于千钧,并不过份。然而,在中文信息 市场,微软公司把人们的注意力引向各种输入法,误使中国投入了大量的财力和 人力在输入法上绕圈子绕了将近10年。结果呢?各种输入法被微软公司兼并,控 制了市场,而中文数据管理连一个简单的排序都不能正确完成!10年了,除了市 场被控和数据管理错误,中国从微软公司那里到底获得了什么?如此巨大的浪费 和损失,还不足以引起对微软公司在中文市场的严重技术误导的高度警惕吗?难 道中文信息产业还要跟着微软公司在输入法上再转10年?   加个空格,避免歧义   让我们来试读一个句子:   他到台湾国中学作报告。   这个句子可以有不同的读法:   他 到 台湾国 中学 作 报告。他 到 台湾 国中 学 作报告。   哪个对?如果没有“一个中国”的基本常识,那么,歧义就会发生,不但会 发生数据处理错误,而且会发生严重的政治错误。这种困扰麻烦正是没有空格和 词界不清所造成的。在检索的时候,没有空格和词界会增加工作成本,甚至会造 成错误结果。例如,在检索《人民日报》文章的时候,我需要有关中非共和国的 资料,输入了“中非”,结果,列出的文章有一半左右是无关的。例如:“…… 他在家中非机密文件……”中有“中非”字样,而该文章是有关美国政府调查机 密是否泄漏的消息,跟中非共和国毫无关系。“……在讲话中非常强调了……” 中有“中非”字样,而该文章是有关国家领导人出席会议做报告的消息,跟中非 共和国毫无关系。为了保证检索结果正确,我需要花费很多时间审阅全部检索结 果,把无关的检索结果删掉。如果检索结果是下一步检索的根据,那么,不做审 阅和删除就会导致一半左右的检索工作是完全错误的、会造成巨大的浪费和损失。 这种错误和浪费与损失,正是没有空格和词界不清所造成的。在中国政府颁布了 《现代汉语拼音方案》之后,曾经有过历时八年的词界问题的比较研究讨论。这 里引述一段:“词不但有独立的意义,而且有确定的语音形式。汉语的词,写的 时候淹没在汉字之中,不易察觉。但实际上,我们说话的时候,是把一个一个的 词分开的。这种区分可以用拼音文字清楚表明。”可见,中文不是没有词界,而 是思维和说话的时候有、书写却没有标明。实行词界方法,怎么想、怎么说,就 怎么写,能使语言、文字方式和数据管理一致起来,不管用不用计算机,都有统 一的标准来保证数据和数据管理的正确性。   采用词界方法是分句方法的继续   大约100年以前,中文书写一直没有标点符号,句子之间没有间隔,几百字的 文章甚至几十万字的书,全都是一个个单字连串堆积在一起。那个时候,句读, 即阅读在什么地方停顿,是学习中文的基本功(或苦功夫)。用了拼音文字的标 点符号和句子间隔的方法,阅读中文方便多了,也准确多了。如果一篇文章或一 本书不用句子间隔和标点符号,有多少人能读懂呢?现在,句读方法已经属于历 史,标点符号和分句的书写方法成了历时多年的国家标准规范。从历史角度讲, 中文使用词界方法是使用标点符号方法的延续,能够使中文更加准确和简便,使 思维、说话、书写和阅读所使用的语言文字方式更趋一致,而且也有利于中文数 据处理的标准化和规范化。从现实讲,中文词界方法的标准雏形早已存在。根据 中文信息产业和文化教育现代化发展的需要,1988年7月1日,国家教育委员会和 国家语言文字工作委员会联合颁布了《汉语拼音正词法基本规则》,明确规定了 现代汉语的词界方法。这个方法是中国教育、出版、信息科学和语言文字科学等 各方面高级专家多年联合努力的结果,也是全国中小学语文教学的基本内容之一。 如此,为什么在实际应用中文信息和做中文数据管理的时候,又不用这个方法了 呢?这些年,随着网络国际化的发展,人们对中文信息处理的要求越来越高,国 际交流对多种语言文字自动翻译的要求越来越普遍。为了满足这些要求,必须搞 中文分词,否则有关的作业根本无法进行。为此,搞中文分词的软件多起来了, 投入的人力、时间和资金不少,可是,自动分词中的问题(特别是歧义问题)还 是没有解决。我觉得,搞中文分词软件是中文书写不用词界方法造成的一个很大 的浪费。如果中文用词界方法,那么,在思维、说话和书写的时候所有的词都已 经分好了,根本没有必要再去搞所谓的“智能”分词软件。进一步比较说,如果 中文书写没有分句标准,那么,搞“智能”分句就是一场灾难,搞计算机自动翻 译几乎不可能。中文书写能使用标点符号作分句标准,为什么就不能加一个空格 来作词界标准呢?任何计算机网络信息产业都有两个基础建设:一个是材料,一 个是文字方式。中文信息产业要发展,不但要重视材料科学,而且要重视文字科 学。加个空格和建立词界标准,是文字科学基础建设,既能继承中文传统,又能 提高中文信息处理的准确性和效率,还能更好地跟世界范围的网络化数据管理接 轨、促进中文信息产业攀登更高的科学技术水平,何乐而不为呢?更何况,不管 用什么计算机,最终目的是处理和使用数据。所有的数据都是用文字记录的,处 理的基本依据是文字方式。从这一点说,小小的空格是中文信息产业基础建设的 一个重要组成部份,我们能不过问吗?   结语   计算机网络和信息服务工业进一步全球化。网络全球化意味着多语言化。文 字方式是所有数据管理的CPU。为了迎战,中国能在硬件科学方面冲击CPU,能不 能在软科学(例如自己文字方式)方面冲击CPU呢?面对网络进一步全球化和多语 言化的新挑战,中国必须有自己的语言文字战略。“山雨欲来”之时,我看到, 越来越多的人在中文信息产业的高楼大厦上添砖加瓦,却几乎没有人过问这个高 楼大厦的地基,一旦“风满楼”,这座高楼大厦会遭遇到什么命运?我为中国冲 击硬件CPU的成就感到非常快乐,在软科学方面(例如文字方式)却时常感到担忧。 西方的文艺复兴包括借助外来科学技术实现本地语言文字的现代化。现在,中国 要文艺复兴,面临着同样的挑战,无动于衷吗?   米阿仑 (2000年1月14日) ———————————————— 【新语丝电子文库(www.xys.org)】