3月12日,“古籍智能信息处理”系列研讨会第一讲“智能时代古典文献学的机遇与挑战”在线举行,与会学者围绕“智能信息环境下古典文献领域应用的技术、工具和平台”等议题展开交流,共同展望古籍智能化发展的方向与前景。

拓展文献整理与研究新方向

古籍传承和保护历来是人文社科领域的一个研究重点,古籍智能化、信息化为古籍整理与研究提供了良好发展机遇。北京大学数字人文研究中心主任王军认为,智能技术使古籍整理的对象、重点发生改变。过去,古籍整理的目标是把传统纸本古籍整理出来再次出版,或者以现代文的注释便利大众阅读。现在,我们需要考虑如何将古籍文献中所蕴藏的古代历史文化知识抽取出来,构造成各种各样的知识库,以知识图谱的形式支持互联网前端应用。另外,在信息技术和智能技术支撑下,古典文献学和相关领域的跨界融合越来越明显。

在智能信息环境下,古籍整理和古典文献的研究与教学正面临一场深刻而广泛的变革。北京大学中文系教授杨海峥认为,凝聚社会多方力量,推动古籍数字化、智能化平台建设,形成相关标准规范,是古典文献学在智能时代进一步发展的需要。近年来,人工智能技术的发展带来了古籍整理和研究方法、研究思路的根本改变,即用新技术、新流程、新视角来整理古籍、解析文本。

大数据技术促进了传统文献学的现代转型。清华大学人文学院教授刘石认为,传统的文献研究主要以细读经典文本的方法来研究具有较高史料价值的经典文献。在全文数据库时代,这些文本只能算是样本,不能概括或代表历史全貌。大数据技术追求的不是随机样本而是全部数据,不是精确性而是混杂性,不是因果关系而是相关关系。大数据技术的使用,有望在研究的科学性、整体性与理论范式上,促进传统文献学的现代化转型。

推进数据平台建设与资源共享

近年来,古籍数字化、智能化平台建设不断推进。这些兼具古籍智能化图像识别、句读标点、命名实体识别、数字化检索等功能的数字化、智能化平台,将人工智能、大数据技术与古典文献结合起来,促进了古籍资源在智能信息环境下的深度开发、利用与传播。四川大学中国文化全球传播大数据中心教授王兆鹏提出了古籍智能化的两个面向。一是古籍文本转化智能化,二是古籍利用智慧化。

基于人工智能技术,目前我国已有多个古籍整理自动化和可视化平台。浙江大学中文系教授徐永明在会上展示了浙江大学“智慧古籍平台”的样式和使用方法。他表示,传统古籍整理方式主要是个体作业,以书为单位,由人力完成,不能修改、不可关联。而大数据时代的古籍整理方式是众包作业,以篇目为单位,通过人际合作共同完成,可随时修改和关联。这就是传统古籍整理与大数据背景下古籍整理的最大不同。

在复旦大学中国历史地理研究所教授张晓虹看来,作为传统史料的古旧地图,因其表达方式的复杂性、精度的不确定性、收藏机构的分散性,在利用上存在较大困难。因此,需要利用地理信息系统(GIS)进行整合,建立共享平台以打破数据孤岛现状,提升古旧地图资料利用效率与资料检索效率。随着数字人文研究的深入,尤其是古籍文献数据化的推进,作为传统史料的地图也受益于GIS技术,古地图的研究从单纯的古旧舆图编目整理,逐渐向数据平台建设与资源共享转变。

正视新技术局限性

大数据技术在古典文献研究中也存在局限性。刘石认为,“用数据说话”不等同于“数据即是客观事实”。数据量大,并非意味着有用的信息多。

信息智能技术与中国古典文献的结合,是一个有着深厚发展潜力的交叉学科领域。王军表示,在这种形势下,高校古典文献学专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系,这些都是亟待解决的问题。在他看来,信息化时代,人们仍然需要加强古籍阅读,以提升人文素养,同时也要倡导跨学科、跨环境、跨文化、跨地区合作。

杨海峥提出,在教学和人才培养层面,要丰富、调整原有教学内容,增加新内容,更新教学理念、方法、手段。在研究层面,要利用好现有的平台和技术,根据学者个性化需求开发新技术,与不同学科背景的研究者合作,以新技术解决新问题。在古籍整理层面,人文社科学者要与技术人员合作,保证结果的准确性,确保更好地“利用”机器而不是被机器“误导”。

在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题尚待解决。未来,要推进古典文献学、文字学研究者与AI学者密切合作,使文献学研究与先进技术充分融合,协作推动古典文献学繁荣发展。

会议由北京大学数字人文研究中心、北京大学人工智能研究院共同主办。

中国社会科学报记者 张杰

关键词: 古籍整理文献学研究平台建设