查看原文
其他

关于建设“中国古典知识库”的思考

DH数字人文 2022-07-17

作者:刘石 孙茂松

日新月异的科技给现代人类生活带来全方位的变化,计算机科学的发展使得大数据时代不期而至。对于人文学术尤其是古代人文学术而言,利用大数据提升研究的瓶颈也随之出现,即可用于统计分析的关系型数据库建设还相当薄弱。现有的一些基本电子古籍资源库,一是规模不够庞大,一是只能用于简单字词检索,还不是结构化、关联性、知识再生型数据库。为此,我们提出构建“中国古典知识库”的建议,以提升人文研究的数字基础设施。



文化自信的基础是5000年绵延不绝的中华文化。20多万种古籍是今日可见文言时代的全部话语,是中华传统文化的重要载体。利用这一重要载体研究传统文化,是传承中华文明、增强文化自信的重要工作。1960年代前后,诞生不久的计算机被西方国家运用于人文研究,称为“人文计算”,国内在1980年代以后也出现了“数字人文”的概念,一些学者开始致力于运用计算机技术研究人文课题。


人文计算或数字人文的前提是典籍的数字化。我国大陆自1990年代至今,已构建了较为丰富的古籍电子数字资源。典籍数字化的进程可以催生新的思维方式和研究范式:从问题驱动到数据驱动、因果性分析到相关性分析、还原性思维到整体性思维,简而言之,我们可以称为大数据研究。大数据研究为人文社科研究的变革与创新带来了千载难逢的历史机遇,正如美国康奈尔大学通讯与信息科学专业教授JeffreyT.Hancock所说:“这是社科研究的一个全新时代,就好比显微镜的诞生对化学科学发展所起到的促进作用。”


前辈学者傅斯年认为,“凡一种学问能扩张他所研究的材料便进步,不能的便退步”,梁启超更提出“探察人间全体之运动进步,即国民全体之经历,及其相互之关系”,即对一个时代乃至整部文明史进行算总账式的研究。这个目标,在今天才具备了终极实现的可能。


相对于20多万种现存中国古籍来说,已得到数字化的还只是很小一部分,这项工作在今后相当长时段内仍当是亟待加强的工作。但现在要说的是,技术的发展倒逼我们提出更高和更激荡人心的目标。随着计算机深度学习能力、文本挖掘等大数据相关技术和人工智能学科的快速提升与发展,学界在呼吁继续推进古籍数字化的同时,开始呼吁古籍由数字化向数据化的转变。


随着书籍的大规模电子化、数据化,学术研究的数字基础设施建设已提上一些国家学术规划的议事日程。美国学术团体理事会(ACLS)甚至专门成立了“数字基础设施委员会”。有关构建“中国古典知识库”的设想,也经由全国人大代表作为建议提交第十三届全国人大第三次会议(2020年5月)。



近期看到一篇文章,发表在《中国新闻周刊》上,题目叫《数学考15分的钱钟书出了道计算机题,这些人研究了35年》,披露了钱钟书先生对古籍数字化的先知先觉。文中提到5万多首的《全唐诗》检索系统的验收会上,一位红学家检索到唯一一次“红楼梦”一词时欣喜万分。


数字化文本为阅读和研究提供了极大便利。但这种简单的检索功能在今天看来,已是平淡无奇的基本功能了。


数字化和数据化的最大区别,就是前者仅可提供简单的字词检索,而后者则是结构化、关联性,可自动进行知识再生。如果说都可用数据库来指称,那么前者是非关系型数据库,后者是关系型数据库,或者,前者叫大数据,后者叫大知识(参《清华自然语言处理科学家孙茂松:深度学习碰壁之后,我们还能做什么?》一文)。


辅之以相应的工具,借助于中国历史上一切古典学的研究成果,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、社团、著述、事件等等,构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理,这就是我们所构想的“中国古典知识库”(ChineseClassicsKnowledgeBase,简称CCKB)。


科技界在知识库构建方面已经做了大量工作,其工作思路和方法可作为我们的重要参考。比如Google很早就提出知识图谱的概念,用符号来描述物理世界中的概念及其相互之间的结构,构建用于知识获取的网络服务。


中国古典文史领域的知识库其实也已经开始出现,如哈佛大学主导的“中国历代人物传记资料库(CBDB)”“中国历史地理信息系统(CHGIS)”,耶鲁大学主导的“广厦千万间(TheTenThousandsRoomsProject)”项目。尤其是“中国历代人物传记资料库”,以近50万名中国古籍中的历史人物为中心,提取人物及人物之间的社会关系,影响甚巨。一些规模不大但颇具特色的专题数据平台如“唐宋文学编年系地信息平台”“明清学术地图”等也引发了社会的普遍关注。


但CCKB是关乎20多万种古籍构成的古典知识整体的宏大构想。这一构想的实现是一个过程,而难以某一时刻为标志。随着知识库建设的推进,人们从事学术研究的条件将随之改善,研究的起点将大大不同,所设定的工作目标亦将不同甚至迥异于往日。到那时,许多前人穷其一生所做的学术,可以或基本可以让位给计算机来做,那时的学者就可以去做计算机仍然不能做的事了。


这一宏大构想不是一个机构或少量人员在短时间能够完成,它需要专业力量和技术力量的通力合作,需要多个高校或科研机构、企业合作完成,需要国家将之真正上升到文化发展战略的高度,相关职能部门高度重视,给予规划和指导。



清华大学的计算机、统计学及中文信息处理技术等学科有得天独厚的优势,古典文献学学科也有相当的实力。


清华大学计算机科学与技术系孙茂松教授团队通过计算机对大量中国古代诗歌文本的深度学习,自主研发成功人工智能古典诗歌写作系统“九歌”,完成了支持多种输入形式、可进行情感控制和风格控制的诗歌自动写作模型。“九歌”在互联网上发布后,已应网上用户要求,写作了超过1000万首诗歌。该团队还基于大规模古诗库训练并开源了一个深度神经网络BERT模型,利用该模型可以获取任意一句古诗句的分布式向量表示,进而设计并实现了基于深度学习模型的智能诗歌检索,可以依据语义而非字面进行搜索,克服了现有诗词网站及软件的检索功能由于多是采用简单的字符串匹配策略而导致的会遗漏很多用词不同但语义相近或相关的候选结果的现象。清华大学统计学研究中心邓柯副教授运用无监督中文文本分析方法TopWORDS系统从经典古文献文本中自动识别人名、地名、官名、历史事件等重要专名,即脱离先验词表的支撑,通过反复计算学习以实现对古籍文本的词语切分,可用极低的人力成本从海量经典古文献中快速建立专名索引,为后续的知识库建设和人文研究提供有力的技术支撑和极大的便利。


清华大学中国古典文献研究中心在著名学者傅璇琮先生带领下,承担和完成了多项大型古籍整理和研究工作,如《续修四库全书总目提要》《中华字库·宋元印本文献用字搜集与整理》等。在目前正承担的国家社科基金重大项目“基于大数据的中国古代文学经典文本分析与研究”中,文献中心特聘研究员张力伟编审的团队尝试基于文献知识库的汉代至唐代作家生平事迹研究。对全面搜集整理的相关文献进行数据抽取、清洗,利用分词、文本挖掘等技术,对同一人物同一事件所对应的相关文献进行聚类,构建一个包含各种关联数据的关系型数据库。与此同时,也分析、构建各类行为模型,把有关作家生平事迹的部分通过关系型数据库,转化成不同实体之间的关系陈述。清华大学中文系刘颖教授的“基于计算风格学的明清小说研究”团队,致力于构建明清小说语料库,经过切词、词性标注等深度加工,直接用于统计分析和机器学习,可以从词汇特征、语法特征、语义特征以及人物关系等多方面来判断小说的作者归属,从远读的角度描绘出每部著作的计量风格特征。


清华大学中国古典文献研究中心还与中华书局合作创办了大陆第一个《数字人文》期刊,建设了国内第一个数字人文门户网站,“DH数字人文”微信公众号的影响也越来越大。我们还着手进行数字人文学者的培养,开设了“数字人文工作坊”和“未来学者实验室”,越来越多的文科生开始学习编程,选择与数字人文有关的题目进行研究。条件成熟时还拟设立数字人文专业。


从项目、刊物到网站、教学,我们规划和开展了一系列有关“数字人文”的工作,期待“中国古典知识库”在国家职能部门和学术界的支持下早日提上议事日程。


(刘石系清华大学中文系教授,孙茂松系清华大学计算机科学与技术系教授)

源:《人民政协报》2020-08-24 09版


公众号ID:thudh2020
转 载 请 联 系 授 权

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存