摘要:构建中医古籍全文数据库是中医古籍数字化的首要任务,也是构建中医专题数据库和知识库的前提和基础。本文通过回顾古籍数据库构建历程,分析当前中医古籍全文数据库的现状及存在的问题,探讨将中医古籍元数据和检索软件相分离的中医古籍全文共享数据库构建的可行性。

关键词:中医古籍;全文数据库;共享

 

2007年出版的《中国中医古籍总目》著录1949年前的中医医籍(不含法医、兽医类著作)有13,455种约占到我国全部现存古籍的10%。但随着时间的推移,古籍面临着粉尘、潮湿、虫螨等危害,致使每年都有部分珍贵中医孤本古籍被破坏,而永远消失在历史的长河中。古籍数字化作为古籍再生保护和传播利用的新手段,正逐渐应用到中医古籍的保护和利用中。中医古籍数字化总量占全部古籍的不足5%在已建成的中医古籍全文数据库中普遍存在着缺少深层次开发,重复建设,共享性差,缺少规范化建设,缺少标准化元数据语料库等问题。本文通过对古籍数字化发展历程的回顾及对当前已经建成的中医古籍全文数据库存在问题的分析,探讨一种将中医古籍元数据和检索软件相分离的中医古籍全文共享数据库构建的可行性。用来完善中医药古籍文献数据库,更好的运用数据库建设和发展中医药文化,服务于广大中医药学者

 


一,古籍数字化历程


伴随计算机技术及自然语言处理技术的发展,中医古籍数字化亦得到了相应的发展。其发展进程大致可分为三个阶段[1]


第一阶段是在20世纪90年代中期以前, 可以说是古籍数字化的探索、起步阶段, 这一时期主要是探讨新兴的计算机技术与古籍整理和应用的结合, 包括古籍机读目录和一些文史古籍全文索引的编制, 由于计算机运算能力的限制, 这一时期还未能涉及全文加工和数据库建设。


第二阶段是在20世纪90年代中期到2002年以前, 计算机和网络技术的发展使这一时期的古籍数字化得到较快发展, 数字化的方式涉及图像化、文本化及图文结合, 应用形式也扩展到全文数据库、光盘版以及网络版古籍。古籍数字化的研究也涉及了全文检索、汉字字符集、数字化输入技术以及数据库的建设等, 可以说这一阶段古籍数字化的技术与实践都有了全面的进步, 是古籍数字化的提升、发展阶段。


第三阶段是在2002年以后, 这一时期古籍数字化主要体现在理论上的逐渐成熟和大规模数字化项目的开展。计算机运算能力的极大提高和网络的普及使大规模古籍数字化建设成为可能, 古籍数据库在容量、数量、功能等方面都有了极大的提高。古籍数字化理论问题的研究要晚于技术问题的研究, 这一时期关于古籍数字化的探讨更多集中在理论方面, 并逐渐转向知识库、知识发现等古籍深度利用研究方面, 古籍数字化的概念和相关理论也逐渐明晰, 是古籍数字化的进一步发展和成熟阶段。


中医古籍数字化的研究是随着整个古籍数字化的发展而逐步开展的, 其开始要晚于其他类古籍。中医古籍在各类古籍中占有很大比例, 并且中医古籍较之其他类古籍更具有实用价值。因而近年来, 中医古籍数字化的研究发展迅速, 并逐渐在各类古籍数字化研究中脱颖而出,取得了一定的成果。

 

二,中医古籍全文数据库构建现状


文化部印发“十三五”时期全国古籍保护工作规划》中提到:“到2020年,全国古籍资源和保存状况基本摸清盛……珍贵古籍缩微复制和数字化成果显著,古籍公共文化服务功能和社会教育的作用更加彰显……社会参与的广度和深度不断拓展,古籍传承文明、服务社会的能力进一步提升。”[2]与此同时,习总书记对中医药工作作出了“传承精华,守正创新”的重要指示。在这一背景下,全国各中医类院校、科研机构、出版机构及部分文化科技类公司纷纷建立起了自己的中医古籍全文数据库。据不完全统计,已在互联网发布的中医古籍全文数据库有近百种。在这之中,根据其数据库类型和检索特点,可以分为以下四类。

 

1,单一性全文数据库


以《中华医典》为代表的单一性中医古籍全文检索数据库是中医古籍全文数据库构建的开端。


中国中医药学会、湖南电子音像出版社、嘉鸿科技开发有限公司携手合作,经多年的筹划、制作,推出《中华医典》中医古籍全文检索数据库2000年荣获首届“国家电子出版物奖”评选提名奖。截至目前,《中华医典》已经更新至第五版,囊括1156种中医古籍,其中不乏大量孤本、抄本,共计4.5亿字。可以实现对书名、目录、全文等的检索,并可以将检索结果批量导出。


由中国中医科学院医史文献研究所监制,黄科技提供技术支持而构建的《中医古籍全文数据库》收录中医古籍近百种,并经过了仔细地校对工作。在检索中提供了数目、作者、朝代、内容提要、校注说明等检索功能,但无法进行全文检索,虽然在全文阅览中加入了图文对照模块,但大多图像存在缺失及加载过慢等问题,并不支持文本选中和导出功能。


此类数据库大多缺少深层次开发,检索方法单一,无法实现二次检索和相关性检索,且数据库做了特殊加密,无法多次复制全文内容。在大数据时代的今天,其检索的单一性,数据的封闭性和使用的局限性都不利于中医文化的传播及科研工作者对其进行进一步的数据挖掘研究。

 

2,图文对照数据库


在中医古籍数字化过程中,文字编码及繁体字、异体字的录入一直是困扰大家的一个难题。另外在古籍数字化过程中多采用OCR识别和人工校对相结合的方法。这就使得数字化后的古籍文本必然存在一定数量的文字误差,无法做到100%还原古籍原文内容。目前市面上单纯的古籍全文数据库都无法解决古籍查准性的问题。在此背景下,一种图文对照的中医古籍全文数据库应运而生。其中最具代表性的便是中国中医科学院推出的《国医典藏》及中华书局联合北京古联数字传媒科技有限公司共同开发的《中华善本古籍数据库——海外中医古籍库》。


国医典藏是由中国中医科学院中医药信息研究所研发的大型中医古籍全文数据库,精选了先秦清末民国历代中医典籍500种,2500册。所选书目按《中国中医古籍总目》分类法分类,内容涉及医经、医理、诊断、伤寒金匮、针灸推拿、本草、方书、临证各科、养生医案医论医话、医史、综合性著作等12大类、65个二级类目。其特点为:收录内容精良,收录馆藏精品、遴选珍善孤本、分类全面原貌展现收录古籍原版、彩色扫描图像深度标引古籍内容的深度标引,实现古籍图片中知识的精准定位;后控检索基于专业化的后控词表,搭建古籍知识桥梁,实现语义检索;书目提要专家精心撰写书目的内容提要,便于读者深入认识和阅读古籍。


《海外中医古籍库》是北京古联数字传媒科技有限公司系列古籍数据库中的一个子系统,在《海外中医珍善本古籍丛刊》基础上,通过数字化加工,打造成的专业古籍数据库。目前已收录古籍427种,217044页,35984个章节。其具有以下特点:根据目录结构对全部图书做了加工;提供了图书的版本对比功能;藏书印鉴皆可检索;可在当页进行批注。


此外《瀚堂典藏中医药文献资料库》、《书同文古籍数据库》、《爱如生中医典海》、《中医古籍类书全文库》等数据库均是采用了此种数据库构建方案。


图文对照数据库虽然既能保持中医药古籍原貌,又具有现代文本检索功能是目前中医古籍数据库检索的最佳选择但其建立的过程比较繁琐,费时费力,且影印版本的选择存在一定的争议性。目前还未建成较大型的中医古籍图文对照数据库。

 

3,多层次检索全文数据库


目前已建成的单一性全文数据库和图文对照数据库都存在检索单一,查全、查准难的问题。仅可以对书名、目录、作者、全文等关键字进行检索,且收录古籍数量较少,无法满足中医临床和科研工作者的多维度检索需求。在此背景下,一类多层次检索全文数据库应运而生。最具代表性的便是《博览医书》和《中医古籍文本知识图谱构建与应用系统》。


博览医书》是由中国中医科学院中医药信息研究所山东搜搜中医信息科技有限公司联合研发的网上医学文献阅读系统。已收录中医古籍及现代出版物3000余种, 将已有的图书内容进行拆解,并通过数据管理进行重组,将纵向的信息筛查变为横向的信息甄别。可以实现关键词检索、聚类检索、近义词检索、知识发现检索、图书学术发展趋势图检索等5种检索类型。


《中医古籍文本知识图谱构建与应用系统》由山东中医药大学研发,收录中医古籍109种,其他书籍7种,期刊论文1340种。可以实现古籍全览、古籍源流分析、人物流派分析、普通检索、语义检索、结构检索、自动百科、专题对比、现代研究、研究学者、泛专题等功能。实现文本多维度检索并自动构建相关知识图谱。但其收录的文本数量较少,文本的导入和标注较为费时。


此类数据库是相对比较成熟的全文数据库类型,可以全面的反应古籍全文检索知识的相关性,为用户提供多种检索方案,用户可以根据自己的需要选择相应的检索方案和自动分析方案。但其或收费过高或文本数量较少,不利于数据库的推广应用。

 

4,跨库检索全文数据库


2002年以后,随着数据库理论上的逐渐成熟和大规模数字化项目的开展受各类中医古籍数据挖掘项目的需要,相应的各类中医专题数据库也逐渐建立起来,例如方剂数据库、中药数据库、养生数据库、针灸数据库、温病数据库等。但由此而产生的数据库孤岛问题也越发的明显而为科研工作者所关注。为了打破中医数据库孤岛问题,《中医药知识服务平台》应运而生。


《中医药知识服务平台》是由中国中医科学院中医药信息研究所建立的跨库检索系统。其包含:中医养生知识库、指南与规范知识库、循证知识库、名医经验知识库、诊疗技术知识库、方药知识库、文献知识库。并可以实现跨库检索。使知识发现不在单纯的局限于某一本书中,而是可以从已经构建起的主题数据库提取所需要的知识,大大节省了二次建库的时间。


此类数据库虽然很好地打破了数据孤岛,但其专题数据库都无法自行添加定制,且无法根据自己需要定制检索方案,不利于当下科研工作者多类型课题的定制化检索。


由于现阶段中医古籍数字化的无序发展以及当前技术手段局限和观念与制度建设滞后等原因,古籍数字化在从简单的知识揭示向有序的知识组织过程转化中困难重重。为了推动古籍数字化事业能稳健高效地向前推进,学者们就现阶段古籍数字化工作存在的问题做了广泛深入的研究。主要问题体现在以下几方面:缺乏统筹规划和选题重复;汉字处理问题和检索技术的局限性;资源共享程度低;商业化运作存在的问题。针对以上问题,笔者构建了数据和检索相分离的中医古籍全文数据库。具体介绍如下。

 

三,中医共享数据库


在中医古籍全文数据库建设中,如果将数据包和检索软件相独立,分别建设,便可很好地解决共享性差、文字编码混乱、检索技术单一、数据类型单一等问题。

笔者构建的中医共享数据库包含两部分内容:数据包和检索软件。


数据包:内含中医古籍全文元数据,数据来源于网络爬虫及中国中医科学院中医药信息研究所已经经过校对的中医古籍元数据,并按《中国中医古籍总目》进行分类;中医专题数据库,数据来源于网络爬虫及中国中医科学院中医药信息研究所过去建立的专题数据库,包括方剂数据库、中药数据库、养生数据库、针灸数据库、温病数据库等;中医古籍影印库,数据来源于海外古籍回归项目下,海外华侨学者捐献给中国中医科学院中医药信息研究所的上万册海外流传的中医珍本古籍影印数据,及后期笔者于国内外30多家图书馆下载的近万册中医古籍影印本,并对其版本、作者、类别、年代等进行标注。对整体数据包的异体字、特殊字体进行统一人工编码,并对数据包进行加密处理生成动态密钥。一方面可以声明版权,另一方面可以直接将数据包分享出去,由科研团队或个人根据自己的项目需要,在数据包基础上通过动态密钥进行解密并进行二次编辑。


检索软件:科研团队或个人可以根据自己的检索需求,自己定制特定功能的检索系统,并通过动态密钥接入数据包,进行数据检索和导出等操作。笔者在中医共享数据库中配备了由Mythicsoft公司开发的FileLocator全文检索工具,其支持布尔表达式、正则表达式、命令集等检索方案,并可以引用外部程序进行批量全文检索及导出。可以满足大多数用户的需求。

 


四,结语


国内古籍数字化的研究可以追溯到1979年,中医古籍数字化的建设也紧跟其后,历经多年的发展,在理论和技术方面的研究已经初见规模。随着研究的不断深入,所面临的困境也在不断转变。中医共享数据库的建立,旨在解决中医古籍全文数据库共享性差、重复建设、推广困难等问题,在中医古籍元数据整理上可以节省更多的人力和时间投入到数据挖掘和深层次的理论研究中去。可以更好的运用数据库建设和发展中医药文化,服务于广大中医药学者。

 

 

【参考文献】

[1] 符永驰.中医古籍数字化探讨(J),中医杂志,2010,12:1128-1130.

[2] 中国古籍保护网[EB/OL].http://www.nlc.cn/pcah/,2020-03-20.


八字命理六爻奇门遁甲六壬太乙神数术数中医:刺刺谷


延伸资源下载(中医疗法理论,中医文献古籍、中医经方学、麻衣神相、太乙神数、七政四余大六壬奇门遁甲梅花数、皇极经世四柱、六爻、风水、铁板神数、、六壬史上最全版古今秘籍汇总|儒释古本民间术数大全超强版持续更新中......)

版权声明:本站部分内容由互联网用户自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请拨打网站电话或发送邮件至1330763388@qq.com 反馈举报,一经查实,本站将立刻删除。

文章标题:由中医古籍全文数据库建设现状探讨构建数据与检索相分离类数据库的可行性发布于2021-05-05 19:53:11