中华文明历经数千年的演进、积淀,流传至今的文献浩如烟海。现代社会信息技术飞速发展,这对文献的保护和利用来说,既是机遇,也是挑战。“不数字无人文”时代的全面到来,意味着数字化已成为文献资源保护、利用、转化、发展的必要前提。
文献可检索化是学术大发展的助推器。从利用角度而言,数字化的核心是“可检索”。检索是现代人文社科研究必不可少的手段和工具,其基本功能是根据问题的指向,帮助研究者快速、准确地查找、鉴别和处理相关文献材料,建立起知识之间的关联,实现知识的融汇。数字人文兴起之前,人们对文献进行可检索化处理的成果是索引,也称“引得”。中国古代的索引是在字书、韵书、类书、书目等基础上发展起来的检索工具,或称为通检、备检、韵编、串珠等。索引可以实现查检字、词、句、篇、文、史、地、事、人、年、制等功能,极大地提高研究效率。
历史上体例完备、搜罗宏富的索引型工具书的每一次进步,都能有力地推动学术的发展,并对后世产生深远影响。清代阮元主持编纂《经籍籑诂》(又作《经籍纂诂》),汇集了我国唐以前古书中的训诂资料,分韵编排,对历代典籍训诂做了索引式的整理——“展一韵而众字毕备,检一字而诸训皆存,寻一训而原书可识。”故此书甫一问世,就受到当时学界盛赞,并在学术研究中加以利用。如郝懿行撰写《尔雅义疏》就得益于书中提供的丰富材料,他说“适购得《经籍纂诂》一书,绝无检书之劳,而有引书之乐”;20世纪后半叶,日本诸桥辙次新编《大汉和辞典》,中国台湾出版《中文大辞典》,我国两部大型语文辞书《汉语大字典》和《汉语大词典》,都把《经籍籑诂》列为最重要的参考书之一;《故训汇纂》《古音汇纂》则是《经籍籑诂》的最新发展。时至今日,它仍然是学者案头必备的工具书。又如,民国时期由洪业主持的哈佛燕京学社引得编纂处编纂的“汉学引得丛刊”,借鉴西方科学的索引技术和方法,首次大规模成系统地编纂了64种81册中国古籍引得工具书,深受当时国内外学界的赞赏,极大地推动了民国学术的发展。
【资料图】
大数据时代,各类综合性、专题性电子数据库如雨后春笋般涌现。相较传统的纸质索引而言,能够处理海量数据的数字化检索功能丰富且更高效便捷,开启了人文学科全新的研究路径,引起了研究范式的大变革。可见,文献可检索化的意义绝不止于为学界提供高效便捷的检索工具,更重要的是倡导了科学高效的读书和治学方法。
“精校勘”“可检索”是文献数字化的两大支点。文献的保护和利用,这里主要指古文献的保护和利用,有原生性保护和再生性保护两种方式。原生性保护更多关注文献作为文化承载实体的物质属性,把文献当作“文物”保护起来。再生性保护则有影印、缩微和数字化三种技术手段。前两种手段让文献以再造纸本或缩微胶片的形式转印,较好地保存了原貌;但没有经过标点、校勘、注释,阅读不便,无法进行检索,查找效率低下,使用中证据力有所欠缺。因此,要提升古文献的利用率,让它们“活起来”,就必须将其内容转化为数字文本。
文献数字化包括纸本资源的电子化,以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层次的知识提取、联结、扩展。“精校勘”是文献数字化的第一个支点。基于可靠纸本的电子化文本是文献数字化的前提和保障,文献数字化的实现过程即是大规模整理文献的过程。“可检索”则是文献数字化的另一个支点。拥有可靠的电子化文本后,在海量的数据资料面前,如果不能实现可检索,则还是不利于读者对文献的利用。因此,只有夯实“精校勘”和“可检索”两个支点,才能走稳文献数字化的建设之路。
文献数字化,归根到底是知识生产资源、学术研究材料的数字化。“一时代之学术,必有其新材料与新问题”,新材料能出新学问。从语言研究角度说,激活旧材料,挖掘新材料是语言研究持久不懈的重要工作。新材料有两层含义:狭义的新材料指地下出土的材料,如清末民初的甲骨文、简帛及敦煌文献;广义的新材料则指前人未曾使用过的,或在研究中没有系统搜集、整理的,学界不曾注意的材料,如域外文献、大内档案。从方言研究角度看,20世纪的歌谣收集、方言调查报告、少数民族语言调查,近年的方志方言整理,其实质上也是新材料,但这些材料的“新”不深究难以觉察。中国地方志是“我国有史以来最大的社会科学成果群”,其中蕴含了丰富的方言材料,他们是中国语言学研究的又一富矿,是具有宝贵价值的新材料。其中不仅有汉语方言,还有少数民族语、外来语,语音、词汇、语法、俗语俱全。但分布零散,搜检不易,前人使用不多。20世纪中叶,日本学者波多野太郎编纂《中国方志所录方言汇编》(9编),收集、影印了266种中国旧志中的方言资料;21世纪初,日本学者太田斋、加纳巧《新编中国地方志所录方言志目录》集31个省市含有方言资料的新志,编成目录。2021年,出现了两部旧志方言资料整理的集大成之作:华学诚主编,曹小云、曹嫄《历代方志方言文献集成》(11册)整理点校了966种旧志方言文献;李蓝《中国方志中语言资料集成》(42册)搜集影印了742种含有语言资料的旧志内容。这是两部旧志方言资料整理的力作,得到学界好评。国家社科基金重大项目“方志中方言资料的整理、辑录及数字化工程”搜集整理新、旧方志中的方言资料,分省编成《中国方志方言资料汇纂》,印刷纸本296册;建成了可供检索利用的“中国方志方言词汇数据库”。该库从10余万种方志中,系统地整理出3677种中国新、旧方志中的方言词,现已入库方言词130万余条,总字数约5000万字。该数据库属于全息数据库,可一键查询到古今方志方言词汇的相应信息,这对未来的汉语方言研究或将有重要参考价值。
科学设计检索字段是提高检索效率的关键。文献数字化要兼顾到原貌保护、精确校勘、电子化提取、方便检索等多方面要求。因此,需要根据不同的检索目的,匹配不同专业的特征项,做好检索的顶层设计,从而提高检索效率和查准率。在文献数字化的建设过程中,“精校勘”的纸质文本与电子化文本是实现“可检索”功能的前提,而提高检索效率的关键则是科学的检索字段设计。
大数据时代的文献数字化除提供字符串匹配的基础检索功能外,还应对内容进行深度标引、知识发掘和文献信息关联。以“中国方志方言词汇数据库”为例,其检索字段设计包括:词形、注音、释义、文例、词类、语类、通行地域、方志纂修时间、方志纂修者、方志名称、方言所在篇(卷)。通过数据的结构化处理,可进行批量查询、计量统计;可实现全文检索,也可进行方言分时、分地、分词类、分语类等专门性检索。方言分区、分类是方言研究的基础工作,又是方言研究的归宿。学界目前多以语音为方言分区的条件,“中国方志方言词汇数据库”可以起到重要的辅助和验证作用。如可从数据库中方便地提取同一方言词在相邻的区、片、小片、点的复现率、同一方言词在不同方言中的共现率等数据。例如,晋语“好面”指白面、精细面,在山西太原、乡宁等地47种方志中出现过;又如方言词“蔫”指物不新鲜,在河北雄县、青县,江苏吴县,浙江萧山、鄞县,上海,福建,广东番禺,重庆云阳、长寿,四川蓬溪、简阳,贵州遵义、平越等地36种方志中出现过。这样的数据,无疑将有益于我们用来研究方言分区、方言溯源、方言扩散、方言比较、形音义、语言接触、移民现象等多方面的问题。基于该库对汉语方言材料进行深度而高效的分析,使汉语方言研究除方言调查报告、方言著作、方言研究论文、方言地图、方言词典外,又多了一个可靠好用的检索平台,有助于方言研究进入更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。
依托于现代信息技术发展起来的文献数字化检索方式,是真正对包括古籍在内的文献实现永续性保护和利用的好办法,必将大大推动人文社会科学领域的发展,推动中华优秀传统文化创造性转化、创新性发展。
(作者系国家社科基金重大项目“方志中方言资料的整理、辑录及数字化工程”首席专家、西南交通大学特聘教授;西南交通大学博士研究生)