漫漫长征一字通


所有跟贴·加跟贴·新语丝读书论坛

送交者: 和平岛 于 2010-01-18, 15:36:21:

“一字通”的开发,已超过三年,在即将发布之际,有必要回顾一下整个开发历程。首先要说明的,什么是“一字通”呢?它是一个以中国文学为核心,以中国历史为时间和地球表面(在线地图)为空间的,面向知识的信息系统(Knowledge-oriented information system,缩写KOIS)。迄今,系统规模空前:超过五万三千个汉字,主干词汇4.5百万条,总词汇量超过6亿条,数据库表格300余个,数据库大小 100千兆字节,支持中文简体,繁体,和英文。该知识系统的最终完成,不仅有助于厘定主要名词(包括人)的历史和地理的分布和变化状态,还可能衍生出新一代的智能型搜索引擎。

中国是个五千年文明古国,文学史源远流长,而源头该是诗歌。我对诗歌的喜爱,始于在北京大学上学期间,哼哼的哪几首唐诗宋词。后因学习和生计的缘故,四处漂泊,把诗歌淡忘了。直到2003年5月,开始有时间上网,并突然写起现代诗歌。我在加拿大寻着一群情趣相投的文学爱好者,并于2005年,组织了非营利的“北美华人文学社”,创办以诗歌为主的文学期刊《北美枫》。

记得在2007年3月份,协助“多伦多社区与文化中心”举办“加拿大〈游子吟〉网络古典诗歌赛”,我们在评定古诗词时,需要查格律对词谱,诗友白水让我找这方面的软件。我在网上搜寻了许久,真的找到一个,但愈看愈生气:边上全是黄色图片。我个人倒不反黄,但配着优雅的古典诗词,觉着是莫大的不敬,是对传统文化的亵渎。因自己是做软件的,我便对白水说,这种小工具,应该不难做,让我来开发一个吧。于是,我化了个把月,找到简单的字典,输入诗词的韵律格式,做成了属于自己的古诗词检验工具。初尝战果的那份喜悦,使我萌发了开发中国诗词库的念头。这便是“一字通”的开端。

这类软件,程序编写并不困难,难的是原始数据的获取,整理和输入。经过几个月的努力,开发成中国诗词库:收录了10563位中国诗词人的250150首诗词,是为“诗海”。

那一年,我参加了台湾诗人洛夫先生主持的漂木艺术家协会的活动,主题是感受音乐和诗歌之美。曼妙的乐曲启发了我,何不给自己的诗词库也配上歌曲和音乐呢?诗歌配音乐的“乐岛”就这样诞生了。

写诗需要琢磨文字。汉字组成词,词汇成句子,句子编织出诗歌和文章。逆向分析,便是我所开发的“汉字分析”系统,用来分析中国诗词库里的诗歌:你输入字或词组,系统分析出相关的汉字和词组,它们的朝代分布频率及其图表,出现于哪些作品。

诗海,乐岛和汉字分析的开发,完成于2007年12月。

这个“汉字分析”技术能分析诗歌,自然也能分析其它文体。于是在2008年,我着手开发中国文学作品库,新增了历史大观,旅游地理,小说之家,影视戏剧,百家争鸣和散文天地这六大类的代表作。到2008年底,该系统初具规模:收集到近5千部经典著作。

2009年,我改进了“汉字分析”技术,开始分析库内作品。

汉语的基础是汉字,核心是词汇,它们承载了人类对世界和社会的认知,是信息的源码。词汇的时空演变,形成了一个完整的信息系统。这个以词条为核心,拥有一套严谨的逻辑分析方法的知识体系,便是我称之为面向知识的信息系统。详情将在专利申请之后公诸于众。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明