每日快看：方志方言文献的数字化摭谈

中华文明历经数千年的演进、积淀，流传至今的文献浩如烟海。现代社会信息技术飞速发展，这对文献的保护和利用来说，既是机遇，也是挑战。“不数字无人文”时代的全面到来，意味着数字化已成为文献资源保护、利用、转化、发展的必要前提。

文献可检索化是学术大发展的助推器。从利用角度而言，数字化的核心是“可检索”。检索是现代人文社科研究必不可少的手段和工具，其基本功能是根据问题的指向，帮助研究者快速、准确地查找、鉴别和处理相关文献材料，建立起知识之间的关联，实现知识的融汇。数字人文兴起之前，人们对文献进行可检索化处理的成果是索引，也称“引得”。中国古代的索引是在字书、韵书、类书、书目等基础上发展起来的检索工具，或称为通检、备检、韵编、串珠等。索引可以实现查检字、词、句、篇、文、史、地、事、人、年、制等功能，极大地提高研究效率。

历史上体例完备、搜罗宏富的索引型工具书的每一次进步，都能有力地推动学术的发展，并对后世产生深远影响。清代阮元主持编纂《经籍籑诂》（又作《经籍纂诂》），汇集了我国唐以前古书中的训诂资料，分韵编排，对历代典籍训诂做了索引式的整理——“展一韵而众字毕备，检一字而诸训皆存，寻一训而原书可识。”故此书甫一问世，就受到当时学界盛赞，并在学术研究中加以利用。如郝懿行撰写《尔雅义疏》就得益于书中提供的丰富材料，他说“适购得《经籍纂诂》一书，绝无检书之劳，而有引书之乐”；20世纪后半叶，日本诸桥辙次新编《大汉和辞典》，中国台湾出版《中文大辞典》，我国两部大型语文辞书《汉语大字典》和《汉语大词典》，都把《经籍籑诂》列为最重要的参考书之一；《故训汇纂》《古音汇纂》则是《经籍籑诂》的最新发展。时至今日，它仍然是学者案头必备的工具书。又如，民国时期由洪业主持的哈佛燕京学社引得编纂处编纂的“汉学引得丛刊”，借鉴西方科学的索引技术和方法，首次大规模成系统地编纂了64种81册中国古籍引得工具书，深受当时国内外学界的赞赏，极大地推动了民国学术的发展。

【资料图】

大数据时代，各类综合性、专题性电子数据库如雨后春笋般涌现。相较传统的纸质索引而言，能够处理海量数据的数字化检索功能丰富且更高效便捷，开启了人文学科全新的研究路径，引起了研究范式的大变革。可见，文献可检索化的意义绝不止于为学界提供高效便捷的检索工具，更重要的是倡导了科学高效的读书和治学方法。

“精校勘”“可检索”是文献数字化的两大支点。文献的保护和利用，这里主要指古文献的保护和利用，有原生性保护和再生性保护两种方式。原生性保护更多关注文献作为文化承载实体的物质属性，把文献当作“文物”保护起来。再生性保护则有影印、缩微和数字化三种技术手段。前两种手段让文献以再造纸本或缩微胶片的形式转印，较好地保存了原貌；但没有经过标点、校勘、注释，阅读不便，无法进行检索，查找效率低下，使用中证据力有所欠缺。因此，要提升古文献的利用率，让它们“活起来”，就必须将其内容转化为数字文本。

文献数字化包括纸本资源的电子化，以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层次的知识提取、联结、扩展。“精校勘”是文献数字化的第一个支点。基于可靠纸本的电子化文本是文献数字化的前提和保障，文献数字化的实现过程即是大规模整理文献的过程。“可检索”则是文献数字化的另一个支点。拥有可靠的电子化文本后，在海量的数据资料面前，如果不能实现可检索，则还是不利于读者对文献的利用。因此，只有夯实“精校勘”和“可检索”两个支点，才能走稳文献数字化的建设之路。

文献数字化，归根到底是知识生产资源、学术研究材料的数字化。“一时代之学术，必有其新材料与新问题”，新材料能出新学问。从语言研究角度说，激活旧材料，挖掘新材料是语言研究持久不懈的重要工作。新材料有两层含义：狭义的新材料指地下出土的材料，如清末民初的甲骨文、简帛及敦煌文献；广义的新材料则指前人未曾使用过的，或在研究中没有系统搜集、整理的，学界不曾注意的材料，如域外文献、大内档案。从方言研究角度看，20世纪的歌谣收集、方言调查报告、少数民族语言调查，近年的方志方言整理，其实质上也是新材料，但这些材料的“新”不深究难以觉察。中国地方志是“我国有史以来最大的社会科学成果群”，其中蕴含了丰富的方言材料，他们是中国语言学研究的又一富矿，是具有宝贵价值的新材料。其中不仅有汉语方言，还有少数民族语、外来语，语音、词汇、语法、俗语俱全。但分布零散，搜检不易，前人使用不多。20世纪中叶，日本学者波多野太郎编纂《中国方志所录方言汇编》（9编），收集、影印了266种中国旧志中的方言资料；21世纪初，日本学者太田斋、加纳巧《新编中国地方志所录方言志目录》集31个省市含有方言资料的新志，编成目录。2021年，出现了两部旧志方言资料整理的集大成之作：华学诚主编，曹小云、曹嫄《历代方志方言文献集成》（11册）整理点校了966种旧志方言文献；李蓝《中国方志中语言资料集成》（42册）搜集影印了742种含有语言资料的旧志内容。这是两部旧志方言资料整理的力作，得到学界好评。国家社科基金重大项目“方志中方言资料的整理、辑录及数字化工程”搜集整理新、旧方志中的方言资料，分省编成《中国方志方言资料汇纂》，印刷纸本296册；建成了可供检索利用的“中国方志方言词汇数据库”。该库从10余万种方志中，系统地整理出3677种中国新、旧方志中的方言词，现已入库方言词130万余条，总字数约5000万字。该数据库属于全息数据库，可一键查询到古今方志方言词汇的相应信息，这对未来的汉语方言研究或将有重要参考价值。

科学设计检索字段是提高检索效率的关键。文献数字化要兼顾到原貌保护、精确校勘、电子化提取、方便检索等多方面要求。因此，需要根据不同的检索目的，匹配不同专业的特征项，做好检索的顶层设计，从而提高检索效率和查准率。在文献数字化的建设过程中，“精校勘”的纸质文本与电子化文本是实现“可检索”功能的前提，而提高检索效率的关键则是科学的检索字段设计。

大数据时代的文献数字化除提供字符串匹配的基础检索功能外，还应对内容进行深度标引、知识发掘和文献信息关联。以“中国方志方言词汇数据库”为例，其检索字段设计包括：词形、注音、释义、文例、词类、语类、通行地域、方志纂修时间、方志纂修者、方志名称、方言所在篇（卷）。通过数据的结构化处理，可进行批量查询、计量统计；可实现全文检索，也可进行方言分时、分地、分词类、分语类等专门性检索。方言分区、分类是方言研究的基础工作，又是方言研究的归宿。学界目前多以语音为方言分区的条件，“中国方志方言词汇数据库”可以起到重要的辅助和验证作用。如可从数据库中方便地提取同一方言词在相邻的区、片、小片、点的复现率、同一方言词在不同方言中的共现率等数据。例如，晋语“好面”指白面、精细面，在山西太原、乡宁等地47种方志中出现过；又如方言词“蔫”指物不新鲜，在河北雄县、青县，江苏吴县，浙江萧山、鄞县，上海，福建，广东番禺，重庆云阳、长寿，四川蓬溪、简阳，贵州遵义、平越等地36种方志中出现过。这样的数据，无疑将有益于我们用来研究方言分区、方言溯源、方言扩散、方言比较、形音义、语言接触、移民现象等多方面的问题。基于该库对汉语方言材料进行深度而高效的分析，使汉语方言研究除方言调查报告、方言著作、方言研究论文、方言地图、方言词典外，又多了一个可靠好用的检索平台，有助于方言研究进入更宏观的视野，提高研究结论的精准性、稳定性及可验证性，促生新的研究理念、方法与范式。

依托于现代信息技术发展起来的文献数字化检索方式，是真正对包括古籍在内的文献实现永续性保护和利用的好办法，必将大大推动人文社会科学领域的发展，推动中华优秀传统文化创造性转化、创新性发展。

（作者系国家社科基金重大项目“方志中方言资料的整理、辑录及数字化工程”首席专家、西南交通大学特聘教授；西南交通大学博士研究生）

关键词：社会科学经籍纂诂