如果你拷问数据到一定程度,它会坦白一切。

——Ronald H. Coase(1991年诺贝尔经济学奖获得者



中医是经验和理论相结合的医学。在这里,数据显得尤为重要。在文献检索和古籍经验检索时,过去的学者国医大师受到数据积累的限制(一书难求),必须靠强大的记忆力,耗尽一生背诵大量古籍,进而可以做文献研究和经验传承。借助于计算机技术的发展,当下普通人也可以拥有整座图书馆数据并随时调用,解决了数据搜集积累的限制,可以全力投入到数据判断上,更快掌握知识进而投入到新的研究中去。


据《中国中医古籍总目》记载,国内已知中医古籍仅13000多种,属于封闭有限数据,正常情况下在几年内是可以建立起完整数据库的,但由于各种因素影响,目前最全面的是《中华医典》仅录入1156种,远低于存世数据。



目前国内已经建成的中医古籍全文数据库有近百种,其中99%以上都设置了收费限制或仅对特定机构开放,且内容受到数据库构建者的限制,无法自定义。



这就存在几个问题:一:数据库无法实现AND,OR,NEAR等检索语句的多层次检索;二,数据库中的数据多为人工录入,存在一定错误,且数据录入费时费力,而用户少,为了保持成本,省略精校环节,进一步导致数据的不准确性;三:为了保护自己的版权,各数据库之间是严格加密、相互封闭的,这就导致各数据库之间有大量重复内容;四,单一课题需要建立自己的数据库,市面上所有数据库都无法量身定做,这就导致科研课题时间的延长。


笔者提出的数据库构想是:数据和检索相分离。


实现分离有这几个优势条件:一,OCR技术的快速发展,ABBYY15,已经可以对品质较好的文本实现100%正确率的转换,可以节省大量人力和时间进行数据录入;二,读秀可以提供580多万册图书的电子版下载,这让数据库的构建更便捷和快速;三,mythost公司做的Filelocator软件可以实现对批量文本的全文快速检索;四,存储设备的升级,1T的硬盘价格已经大幅度降价,这就使得个人可以存储大量私有数据;五,AI代码技术的成熟,让普通人也可以简单做一个符合自己需求的检索程序。



《中医共享库》是数据和检索相分离的一次尝试。现对其介绍如下:


数据库分为:文本库,图文对照i库,影印库。


文本库包含目前网络上已经做过古籍文本录入校对的书目,并在不断扩充,使用者也可以根据自己手里的数据进行扩充。



图文对照库包含已经出版的古籍丛书,例如:中国古医籍整理丛书300多册,中医临床必读丛书100多册,中国百年百名临床家整理丛书100多册,任应秋医学全集10册等,并可以根据自己的课题需求进行扩充,实现图文多照检索,解决数据录入错误问题,也使检索范围进行最大化扩充。



影印库包含国内外古籍珍惜抄本和影印本,例如:早稻田大学图书馆、哈燕京图书馆、西柏林图书馆、东亚图书馆等及国内各地藏本。转为古籍爱好者及古文献考证的学者而准备。



如此,以上三库就全面包含了目前市面上已经出版的中医古籍全文库。


在检索软件方面,window和mac系统都有自己的全文检索软件,都可以快速实现1000本在20秒内检索完毕的高效性。对于专题研究的机构,也可以快速建立自己的检索系统。



当下是数据开放,知识共享的年代,中医古籍的传承也应该坚持这一原则。


注:如果您对中医古籍数据库建设感兴趣,可以关注“刺刺谷” 。如果您身边有朋友喜欢做文献研究,您可以帮忙分享一下,万分感谢。



八字命理六爻奇门遁甲六壬太乙术数中医:刺刺谷


延伸资源下载(中医疗法理论,中医文献古籍、中医经方学、麻衣神相、太乙神数、七政四余大六壬奇门遁甲梅花数、皇极经世四柱、六爻、风水、铁板神数、、六壬史上最全版古今秘籍汇总|儒释古本民间术数大全超强版持续更新中......)

版权声明:本站部分内容由互联网用户自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请拨打网站电话或发送邮件至1330763388@qq.com 反馈举报,一经查实,本站将立刻删除。

文章标题:【分享】中医古籍全文数据库构想——数据与检索分离发布于2021-05-05 20:10:39