(原载《中国青年报》电脑周刊) 从“古腾堡”到“巴特里比” --网站评点之五 ·方舟子· 英文电子文库的年龄要比今天大多数互联网用户的年龄要大,可以一直追溯 到一九七一年十二月。那时候,美国伊利诺伊大学材料研究实验室二十四岁的研 究生迈克·哈特(Michael Hart)因工作需要要使用计算机,在当时当然只有学校 的大型机可用。机器管理员恰好是哈特的好友,极其慷慨地分配给哈特价值一亿 美元的上机时间,条件是哈特必须用计算机干出价值一亿美元的活来。哈特在接 到这个挑战后,不到两个小时就想到了解决办法。他输入了《美国独立宣言》-- 世界上第一个电子文本,然后把它通过计算机网络寄出,想让当时全世界所有的 网络用户都能收到--这大概也是第一封垃圾电子邮件。哈特的如意算盘是:输 入一篇《美国独立宣言》所花费的劳动至少价值一美元,但是如果把它输好以后, 不是藏起来,而是与所有的网络用户共享,有一个用户用了它,就省下了一美元 的劳动,总有一天累积会有一亿用户用到它,它的价值就变成了一亿美元。 这样,哈特就启动了有史以来第一个文本电子化工程,他认为这项工作可以 跟十五世纪德国发明家古腾堡发明西方活字印刷术想媲美,便称之为“古腾堡工 程”(Project Gutenberg)。但其实哈特一开始并没有大张旗鼓地从事这项工作, 在整个七十年代,他只是每年利用年终假期输入一、两篇美国政治文献,一年以 后才有了第二个电子文本《美国权利法案》,第三年有了林肯总统的葛底斯堡演 说和肯尼迪总统就职演说……,这时候最大的一项工作是在一九七五年输入美国 宪法全文。进入八十年代后,古腾堡工程有了志愿者加入,把精力转向了大部头: 《圣经》(詹姆斯王版)和莎士比亚全集。这两项工作持续了整整十年,到一九 八九年才告结束(当时只先发布了《圣经》)。进入一九九一年,古腾堡工程也 开始从事“轻”文学的输入,在一月份发布了第一部电子版小说《爱丽丝漫游奇 境》。这样,参考资料(比如《美国宪法》、圆周率的一百多万位数)、“重” 文学(比如莎士比亚全集)和“轻”文学就构成了古腾堡工程的三大块。进入九 十年代以后,随着越来越多的志愿者加入输入大军,随着英文光学字符识别技术 (OCR)越来越普及,古腾堡工程的进展也就一年比一年快,九一年每月推出一 部,九二年每月推出两部,九三年每月推出四部……,到现在,是集中在每月月 底推出三十余部。古腾堡工程也演变成了一项许多人分工协作的庞大工程,有人 选题、有人输入、有人校对,现在在卡内基·梅隆大学当教授的哈特还是它的领 导者,事实上该工程的运作经费大部分还是由他自己掏腰包的。哈特几年前曾经 宣布要在2001年完成一万部,但是到了现在仅完成了一千六百多部,看来是无法 完成既定目标了。但是也别小看了这一千六百多部,因为每一部基本都是一个大 部头,而不象中文电子文库那样把一篇文章也当成一本书。可以说,西方的经典 著作已差不多都被囊括进去。 哈特在规划古腾堡工程时,根据两个原则:普及性和普适性。普及性,是指 面向广大的读者,供一般人阅读、使用的,而不是供少数学者研究用的,所以在 输入时,对于版本的不同,并不注明(他们计划在以后出不同版本的莎士比亚全 集供研究、比较,看来也开始注重学术性,但还未真正去做)。普适性,则是要 让所有的--不仅是现在的,也包括未来的--计算机操作系统、编辑程序都能 阅读、利用,所以一开始哈特就采用了纯文本的美国标准码(ASCII)输入。这 一点是非常有远见的。如果哈特一开始用的是七、八十年代的某个操作系统某个 编辑程序的特殊格式,到了今天恐怕就都失去了使用价值了。操作系统、编辑程 序会不断地更新,而纯文本却不会过时,哈特在七十年代的劳动在今天所有的计 算机用户仍能够利用。这两个原则,也值得今天的中文电子文库借鉴。当然,纯 文本的缺点是有时候没有办法百分之百地复制原文,比如原文中的斜体字、黑体 字和划线,在古腾堡工程的文本中一律以大写代替;如果夹杂有非拉丁字母,更 是无法直接表达了。古腾堡工程的人员自然知道这个不足,他们的目的也并不是 要忠实地表达原文,而是提供一个最近真的原材料,供别人进一步的修饰、加工 --当然一经修饰、加工,也就失去了普始性了。 古腾堡电子文本最初是通过BBS和软盘传播的,互联网兴起后,则通过FTP传 播,到了现在,虽然万维网已成主流,古腾堡工程因为仍然坚持使用纯文本而不 用高文本,主要还是通过FTP传播。他们的网站,只是起简单索引的作用(只能 根据作者、题目、题材等查询篇名,而无法对全文做主题检索),把读者引到其 他FTP站下载。并非为线上阅读而设。 与古腾堡工程针锋相对的是“巴特里比工程”(Project Bartleby)。这个工 程由斯蒂芬·范·留文(Steven van Leeuwen)负责,本来是美国哥伦比亚大学 的一个项目,现在已独立出去。巴特里比是美国十九世纪的作家麦尔维尔(《白 鲸》的作者)一篇短篇小说《抄写员巴特里比》的主人公的名字。古腾堡工程自 命不凡以大发明家相比,巴特里比工程则谦卑地以抄写员自喻。巴特里比工程是 在万维网兴起后才出现的,一开始就以提供线上阅读为目的,因此使用的是高文 本,一部分是从已有的纯文本转化的,也有一部分是自己输入的。他们在一九九 六年推出的惠特曼《草叶集》,就被认为是第一部一开始就以高文本传播的电子 书。电子书胜过传统书之处,是便于检索,巴特里比网站也具有非常完善的全文 检索功能。对大部分用户来说,恐怕还不习惯在网上阅读大部头著作,因此巴特 里比网站的主要用途,其实是供查询英文名言名句的出处。全文检索要起作用, 全文首先要准确无误,巴特里比网站就号称对所有的收藏都经过了达到专业标准 的校对,绝无差错。但这样一来,工程的进展就大大减慢,到现在只有几十部英 语名著供利用,从数量上来说,难以跟古腾堡工程相比。当然,对一般读者来说, 这也足够了。 不管是古腾堡工程,还是巴特里比工程,或者是其他五花八门的英文电子文 本工程,都只能收入版权期已失效(作者死后五十年)的经典著作,当代的英文 文学著作,在我们的有生之年大约是没法在网上读到了。哈特对国际版权公约把 版权期定得如此之长颇有微词(以前美国的版权期只是作品出版后的十四年), 如果他知道中文电子文库可以肆无忌惮地收存当代中文文学著作,一定是非常羡 慕的吧。 网站: 古腾堡工程主站点:http://www.promo.net/pg/ 巴特里比工程:http://www.bartleby.com/ 1999.4.17.