(原载《中国青年报》“电脑周刊”,发表时有删节) 海外的互联网中文电子文库 --中文国际网络纵横谈之一 ·方舟子· 当今中文互联网上的许多人事,都可以追溯到一个叫作alt.chinese.text (简称ACT)的网络新闻组(Usenet newsgroup)。这是在成千上万个网络新闻组 中,唯一一个以汉字为通讯语言的。它成立于一九九三年,在九四、九五年达 到了鼎盛,现在则是彻底地没落了。当时中国大陆的互联网还未起步,台湾的 互联网则限于技术条件还很难与外界交流,活跃在ACT上的,主要是海外(特别 是美国)的中国大陆、台湾的留学生,当其鼎盛之时,其读者据统计有三、四万 人之多。这些生活在外语环境中的留学生对这块母语园地是如此热爱,以至在 那里用英文张贴也被视为一种罪过。发表习作、讨论、聊天乃至骂大街,除了 用的是汉语,ACT上的张贴内容跟其他外语新闻组也没有什么大差别,如果要说 有什么特色的话,那就是在那里偶尔可以读到一些古典、现代的文学名作。这 些作品,当然都是一些热心的网友花费了许多时间无偿输入的。在海外不容易看 到中文书,偶有所获,就想跟大家分享,而互联网络正是最方便的一个工具。 最早是有人零星地张贴唐诗宋词,慢慢地也开始有人一章一章地输入大部头 著作。这些汉文电子化的先驱者,包括张家杰(输入《孙子》、《鬼谷子》)、 知更(输入《周易》、《庄子》)、弘甫(输入《离骚》、《九歌》)、不亮( 输入《水浒传》、《三国演义》的一些章节和鲁迅《呐喊》)、莲波(输入几位 宋词人的选集和鲁迅《朝花夕拾》)、裴明龙(输入李白、王维诗选)、方舟子 (输入《荀子》、杜诗、几位词人选集、鲁迅《野草》和一部分杂文)、笑书生 (输入钱钟书《围城》)、幼耳(输入钱钟书短篇小说、散文集)、程鹗(输入 张承志《北方的河》)、海生(输入几部当代长篇纪实文学)、黄鱼(输入几部 当代中篇小说)、柱子(输入长篇纪实)等。值得一提的是,有几位学习汉语的 外国友人也加入了汉文电子化的行列,其突出者包括美国人施铁民(原名戴维· 斯蒂尔曼,输入《红楼梦》全书和柳永全集)、井作恒(原名约翰·简金斯,输 入“四书”)、奈得·瓦尔希(输入《唐诗三百首》)和韩国人金明学(输入柔 石《为奴隶的母亲》等几篇现代作品)。 当中文扫描识别技术还未被开发出来的时候,中文输入的艰辛可想而知。而 在中国大陆、台湾的输入大军加入之前,这些海外先驱者的艰辛劳动,就为中文 典籍电子化、也为以后的各中文电子书库,打下了一个坚实的基础。 电子化的中文书籍日渐丰富,也开始有团体和个人对其进行收集供网民取阅。 但这些收藏都很零散,也缺乏归类、整理。第一个有意识地对电子化中文书籍进 行起码的归类和整理、并号召网民投稿,因而也算得上是第一个中文电子文库的, 是建于一九九四年十一月、位于加拿大麦基尔大学的“太阳升考访站”。“考访” 是指Gopher,一种只能传递文本文件的网络存储、取阅方式,现在已被万维网所 取代。“太阳升”则一直在使用这种过时的网络技术,到了一九九七年初才加了 一个万维网接口,并更名为“太阳升中文图书馆”。 在“太阳升”建立之后的一段时间内,由于独此一家、别无分店,乃是中文 网络上最受欢迎的一个站点。其主持人一木在一九九五年二月的一篇介绍文章中 曾经如此“炫耀”道:“全月共有:18,903来访人次,平均每天:652 人次;共输出:177,876份文件,平均每天:6,134份。”这样的一 组数据,在现在自然还不如一个小型的中文站点,在当时却的确是惊人的。 “太阳升”的收藏分为“电子刊物”、“文学读物”、“百科知识”、“百 家争鸣”、“人物专集”、“各地新闻”几部分,总量据称有上亿字。事实上, 近年来,“太阳升”已演变成以收藏各种中文电子刊物和美国之音的新闻稿为主, 而很少再加入其他方面的收藏。由于它收藏的中文电子刊物中,有几份是以推翻 中国政府为目的的政治宣传刊物,这个站点,也因此被中国政府列入禁单,国内 的网友无法取阅。 到了一九九五年六月,鉴于“太阳升”主持人对收藏中文古典文学的兴趣不 大,有许多古典作品仍流失在外,而且“太阳升”使用的汉字编码“汉字码”也 非标准码,“新语丝”决定另外建立一个使用国标码、以收藏中文古典作品和鲁 迅著作为主的电子文库“新语丝电子文库”。新语丝是一个由活跃在国际中文网 络上的网友组成的团体,一九九四年二月起开始出版世界上第一份专门刊载文学 创作的中文电子刊物《新语丝》杂志。“新语丝电子文库”开始只是一个公用存 档点,供网众用FTP的方式下载、离线阅读或打印。随着中文万维网的普及,为 了满足大家线上阅读的需要,在一九九六年十月,新语丝建立了万维网家页。新 语丝服务器曾几次搬家,目前位于美国加州。 在中文经典的基础上,“新语丝电子文库”也逐渐扩大其收藏范围,目前分 为中文经典(包括诸子百家、古典诗歌、古文、古典小说、古典文学批评、鲁迅 作品等部分)、现代文学、文史资料、期刊阅览(收藏《新语丝》等中文电子刊 物)、网人作品等几个分部,总量近一亿字,全部向读者免费服务。新语丝网站 是目前海外国标码中文网站中流量最大的一个,每天都有十几万人次取阅,并被 雅虎中文、中国导航、《中国计算机报》等机构评为酷站、名站。在“新语丝” 的收藏中,被取阅最多的是小说和纪实文学部分,但我在这里却想重点推荐由于 主持人的偏爱而花了比较多的心血的古典诗歌部分和鲁迅家页。古典诗歌部分囊 括了各个时期的代表诗作和重要诗人的全集或选集,并且都经过精心的校对;鲁 迅家页除了收藏鲁迅全集(已完成约三分之一)外,还有许多相关的相片手迹、 传记资料、评论研究、新闻报道等,是业余爱好者的一个好去处,对专业研究者 也不无参考、利用价值。“新语丝”曾经组织过鲁迅著作、宋词电子化工程,目 前正在进行唐诗电子化工程。 建立“新语丝电子文库”的初衷,是为海外华人提供服务。互联网络在中国 国内兴起后,“新语丝”也出乎意料地吸引了大量的国内读者,约占“新语丝” 总读者的三分之一。许多国内的网友也为“新语丝”的建设作出了不同程度的贡 献,从而使“新语丝”成为了一个真正的国际网站,象美国的阿瑟、亦歌,北京 的老猫、洪亮,上海的一华,天津的Sunny,长沙的Dove,哈尔滨的付振宪,就 都是“新语丝电子文库”的众多贡献者中最近比较突出的几位。 除了“太阳升”和“新语丝”这两个大型的综合文库,海外还有不少中、小 型的比较专门的电子文库,其中较有特色的包括:“亦凡书屋”,以收藏小说和 纪实文学为主,其收藏基本上复制自“太阳升”、“新语丝”和国内BBS的文学 版,最近也“独家推出”了一些新资料。“阿拉谈书屋”,主要收藏当代小说和 散文,网页制作相当精致,遗憾的是每部作品都被分割成很细小的html文件,阅 读时要一页一页翻阅,很不方便,其主持人也未对其经常更新。“侦探推理园地 ”,收集、整理分散在网上各处的侦探推理小说,其主持人的设想,是希望能因 此推进“侦探推理小说电子文库”的建立。“武侠世界”,专门收藏金庸、古龙、 梁羽生等人的武侠小说,在网上众多武侠小说站点中,这是收藏比较齐全、且经 常更新的。“军事广角”,收集了许多军事方面的资料。 这些站点,不管是由团体还是由个人主办,大体上都是非牟利性的,或者为 中国人社区提供义务劳动,或者纯粹出于个人的业余爱好。即使有的靠刊登广告 获得一些收入,也是为了用于维持站点的运行,因为一个大型的网站要交付昂贵 的机器、网络费用,是必须有一定的经费才能长期维持下去的。但是由于电子文 库读者众多,也使某些人开始在这上面动起了靠此赚钱的脑筋,从而也出现了象 “全景中文图书”、“文学城”这样的以牟利为目的的网页。这些网页,本身并 不收藏书籍,而只是提供链接连到各个电子文库的收藏,因此建立这样的网页, 并不需要多少的硬盘空间,本身也不会有多少流量,花费极少,有的甚至根本就 是利用免费的网站。他们的目的就是通过刊登广告牟利。在提供连接时,他们又 用框架隐蔽链接,让读者误以为是在阅读他们的收藏。所以,这是一种通过窃取 其他网站的硬盘空间、给其他网站增加流量负担,却既未给被连的网站应有的名 义,又为自己牟取广告收入的不道德的行为,按美国的法律,也是非法的。国内 外各个文库的主持人,都应该通过不时地变化目录、文件名的方式,使这些网页 的非法链接失效,以保证自己的收藏不被盗用。 建立电子文库,不可避免地要牵涉到版权问题。对于没有版权或版权期已过 的资料,象古典作品、鲁迅著作和历史文献,当然可以不受任何限制地自由流通, 但是对于有版权的当代作品,却不能不顾及版权拥有者(一般也就是原作者)的 合法权益。对于电子化作品的版权应该如何认定,目前仍属灰色区域。但在理论 上,输入者在把别人作品送上网络传播时,最好能够获得原作者的许可。就象传 统图书馆的管理员在选择藏书时很难判定正版、盗版,电子文库的管理员也很难 判定在网络上流传的电子书籍是否经过原作者的授权,或原作者是否乐见其流传, 在实际上只能采取“告诉乃论”的原则。如果原作者或公开或私下反对将其作品 送上网,电子文库的主持人应该尊重原作者的意见。只要能够满足原作者的要求, 又未以其作品牟利,一般也不会带来法律上的麻烦。据称拥有金庸小说版权的香 港明河社就曾经发表声明反对在网上传播金庸小说,几个中文电子文库也都满足 了其要求。随着网络的普及,作家中上网者日众,类似的情形会更频繁发生,这 是国内外的电子文库都应该正视的。 前一阵子国内一个叫做“侠客居”的站点因为他们输入的作品被“新语丝” 采用,而兴师问罪。这种无理取闹的行为,据说在国内还引起了一定的反响和认 识上的混乱。在此有必要明确一下:输入者、收藏者如果输入、收藏的是别人的 作品却未获原作者授权,并不因此拥有版权,也就没有权利对这些作品的流通提 出任何条件。唯一有资格兴师问罪的是版权拥有人(原作者)。 但这并不是说输入者的劳动不应该得到我们的尊重。海外的中文电子文库大 都遵循海外中文网络尊重输入者的传统,根据输入者的意愿在文件中保留输入者 的签名,除非输入者自己不愿留名或输入者不详。曾经有某文库声称“不可以 让输入者沾原作者的光”而有意删去输入者名字,因此受到了海外网友们的一致 谴责。相反的,国内的许多网站,包括某几个大型的网站,在照抄照搬海外电子 文库的收藏的同时,却有意一概删去原收藏中输入者、注解者、乃至原作者的名 字,甚至冒名顶替,对这种不道德的行为,在国内网络反而见怪不怪,鲜见到批 评。不尊重别人的劳动,会妨碍中文网络的繁荣,这是值得国内的网友们重视的。 我希望能够引起海内外网友共同重视的另一点,是不仅要追求输入的数量, 更要注意输入的质量。目前流传的绝大部分中文电子书籍,都缺乏起码的整理、 校对,充斥了大量的错字、错句、错行,令人难以卒读。在各个中文电子文库中, “新语丝”应该是最重视校勘工作的,但限于人手,也只能把主要精力花在校勘 经典作品上。电子书籍胜过传统书籍的一个优势,是便于检索;但是如果没有基 本准确无误的文本,检索也就失去了利用价值。校勘工作之重要、工作量之大, 并不比输入本身小。但愿以后能有更多的人从事校勘工作。 “新语丝”:http://www.xys.org “太阳升”:http://www.sunrisesite.org “亦凡书屋”:http://www.yifan.net “阿拉谈书屋”:http://www.cs.ualberta.ca/~xun/index.html “侦探推理园地”:http://members.xoom.com/pipilu/ “武侠世界”:http://web.mit.edu/xwliu/www/em/ “军事广角”:http://members.tripod.com/~chinaarmy/military.htm 1998.11.17.