汉文化资料库不同层次的实用要求
作者:佚名; 更新时间:2014-12-11
 汉文化资料库,是一个非常大的概念。它可以是包括诸如文字的、图像的、声音的等等各种表现形式的、古往今来的所有汉文化资料在内。我这里仅就古文献这一层面,并从一名使用者的角度来谈一点不同层次实用要求的意见。?

                    一?

  就目前我看到的已制作出来的汉文化古文献数字化资料,数量已不在少数。当然与全部传世古文献相比,也还只是很小一部分。然仅就这些已制作出的古文献数字化资料来看,其中有不少重复的制作,也有不少并不完全符合该古文献实际功能和使用者需要的制作。这也许是由于现在市场经济机制的关系,互相封锁,互相竞争,有些重复很难避免。但更多的原因可能是制作者对各类不同性质古籍的使用价值了解不够所造成的。这里人力、物力、财力的浪费是非常可惜的。因此,如何从整体上来规划汉文化古文献资料库的建设,应当说已经提到日程上来了。?
  这里,我想就目前已制作成成品流通、销售的部分大部头丛书类古籍,作一些简单的评析。这些大部头丛书类古籍(包括传世的和新编的),也正是眼下制作汉文化数字资料库的一个热点。?
  这类古籍数据库中面世最早的大概是《古今图书集成》,接着是《二十四史》(或加《清史稿》为《二十五史》)、正续《资治通鉴》、《全唐诗》等,再下来便是部帙巨大的《四库全书》、《四部丛刊》等。其他,如“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中,也提供了大量的古籍丛书类的数据资料库。如:《四库全书存目丛书》、《四库全书禁毁书丛刊》、《续修四库全书》、《四库未收书辑刊》、《丛书集成》、《二十四史订补》、《二十五别史》、《二十五史三编》、《中国野史集成》、《中国野史集成续编》、《北京图书馆藏珍本年谱丛刊》、《北京大学图书馆藏稿本丛书》、《北京大学图书馆藏善本医书》、《善本戏曲丛刊》、《明清抄本孤本戏曲丛刊》、《古本小说丛刊》等等,都是部头大、史料价值相当高的原始文献。上述电子文献中,像《二十五史》、《全唐诗》、《四库全书》等,还先后出了好几种版本。?
  此外,佛教经典文献的电子化进程,也是十分值得人们注目的。除了散见的单本佛教经典外,现在可以看到的制作成电子数据库的整部大藏经有:《佛梅大藏经》、《大正藏》(1—55卷、85卷) 、《中华大藏经》、《永乐北藏》、《龙藏》、《高丽藏》,以及即将面世的《佛光大藏经》等。道教经典总集《道藏》和《藏外道书》也已有图像版在“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中流通。?
  在这些数据库中,大部分只是图像数据,一部分是电子文本数据(如《二十五史》、正续《资治通鉴》、《全唐诗》、《佛梅大藏经》、《大正藏》等),再一部分是图像数据与文本数据对应合成(如《四库全书》、《四部丛刊》、《高丽藏》等)。其中技术表现手段,互有短长,各有特色。如果从制作质量(主要从图像清晰、文字校对质量、缺字处理和解决等方面来衡量)和技术表现手段(主要从系统兼容、浏览界面、检索技术、显示速度等方面来衡量)来比较一下的话,有两件作品值得提出一讲。一是由北京书同文数字化技术有限公司制作的电子版《四部丛刊》,一是由台湾中华佛学研究所制作的电子版《大正藏》〔CBETA 电子佛典(大正版)〕。?
  这两部作品从制作质量方面来讲,都是上乘的,文本校对精细,缺字的解决也比较完善。如,《四部丛刊》是用造字和图像字配合,直接显示在文本中;《大正藏》则全部制作成图像字,而在文本中则以组字形式(按一定规则组成)表达。这样在纯文本中缺字完全以组字形式出现,人们据此可构思出此字字形来,而在超文本或Word文本中,则可通过点击组字部分,连结显示该图像字。再有《四部丛刊》中的原书图像也是相当清晰的。?
  再从技术表现手段方面来讲,这两件作品也都相当优秀。《四部丛刊》设计了相当美观的浏览界面,电子文本的页面设计得与原书的页面基本一样,每页的行数和每行的字数,乃至双行小注,都一一对应。(按,这里说“基本一样”是以比较苛刻的要求来说的,因为虽说每一页面都能做到行数和每行的字数完全对应,但其中有相当多的页面在处理上还比较粗糙,字体大小变换不当,致使每行字填不满本行的空间,损害了页面的统一与美观)而且,电子文本页与原书图像页之间的连接,一点转换,非常方便,使得使用者在对电子文本产生疑问时,马上就可以调出原书加以核对。这对供研究使用,特别是古籍校勘使用的电子资料库来说,是一项非常重要的内容和功能。本书的检索功能也是相当完美的,书名、作者名、任意字词的检索都极其方便,而且可以快速将检索条目提列出来,给出统计数,并当点击某一条目时,又能迅速连接显示该条目所在之页面。然本书在技术上最大的突破点,是在它的超平台通用性,它可以在英文Windows、繁体中文Windows和简体中文Windows系统上通用,更关键的通用性是它突破了由于输入简、繁体(无论是GBK码繁体还是BTG5码繁体)汉字之间的不相容给检索带来的麻烦,实现了无论输入何种内码繁、简体汉字,它都能自动识别、转换,检索出你所要求的字词条目。目前,不同内码的汉文资料库在不同汉字系统中的显示问题,相对来讲已经不是很大的问题了。然在检索方面用不同内码输入,造成不同汉字系统之间无法实现检索,则还是一个严重的问题。所以《四部丛刊》系统在这方面的突破,把不同内码的汉文资料库在不同汉字系统中的应用,变成了现实。?
  《大正藏》在技术表现方面,根据不同使用者的不同需要,通过几种不同层次的电子文本版本来予以体现。它总共提供了6套版本,即:XML版(纯文字档,XML标记)、普及版(一般文字档)、APP版(“行末句点”格式之文字档)、RTF版(RichText格式,可在WORD或是WORDPAD中浏览)、HTMLHe1p版(具有目录、全文检索多功能)、HTML版(可以直接使用网络浏览器阅读)。使用者可以根据自己的需要来选择,或再一次开发。它在技术上的处理是考虑得非常细致的。如它在普及版和APP版中,在每行行首都注明了册数、经文编号、页码、栏位、行数等信息,方便读者复核。又如,在HTMLHe1p版中,页面处理上的特点是,首先以大正藏的栏位为基准,每一栏处理成一页显示,以清眉目;其次为消除使用者来回翻页的麻烦与检索的方便,设计者将每页的最后二行重现在下一页的前面,并以蓝色字体显示。同时,这一版本还提供了线上佛学词典(两部),极为方便周到。?
  从以上所列的成果看,汉文化电子资料库的技术表现手段和形式,已经基本成熟了,有些还达到了相当高的水平。当然如果要精益求精,则还有许多技术手段有待提高和完善。从总体上来讲,我认为,目前汉字古文献的电子化工作中迫切需要解决的有三个问题:一是字库(字符集)问题,这是一个极大的专门问题,本文暂且不谈。二是文本的准确性和可靠性问题,什么时候我们的古籍电子文本也能在学术论著中被引用,成为一个被承认的版本,这才能真正体现出电子资料库存在的价值和意义。三是资料库的分类分层次的问题,这也是本文要着重讨论的问题。?


  二?

  作为一名使用者,我认为汉文化古文献资料库,按照文献自身的性质、功能,使用者不同的使用目的、要求,以及面对的不同使用对象等等,应当对古文献资料库规划出一个比较合乎实际又能满足各方要求的不同层次的资料库。在我们的汉文化资料库中,有一些是供阅读用的(包括一般读者的阅读以及专业工作者的阅读),更多的是供专门研究使用的。?
  就以上所举的一些丛书类古籍来说,像《二十五史
核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com