人类正步入智能时代,很难想象智能可以脱离语言而存在,这也许是人类历史上最需要语言学家的时代,遗憾的是现实世界的主流语言学却似乎与这个时代渐行渐远。为什么会这样?形成这一挑战的主要原因可能在于,智能时代的推动力源于数据。换言之,我们正在进入数智时代,但对于大多数语言学家来说,基于数据驱动的语言研究方法则是陌生的、困难的。为了应对数智时代带来的各种挑战,语言学家们需要进行全方位的反思,特别是从目标、方法、语料和知识表征等方面进行反思。

自然语言处理是数智时代的主要领域,其实践与进展为我们反思和检验语言学研究中的各种假说提供了一种可参考的路径和反思的起点。简单来说,为什么语言学家绞尽脑汁发现的所谓规律或形式化的计算模型,一旦放到计算机里面就不灵了呢?是因为这些规律压根不是规律?还是表现规律或知识的形式不当呢?此外,我们也需要解释为什么一些翻译软件很容易就具有上百种语言互译的能力,尽管我们有时抱怨这些翻译文本的质量一般,但又有几个人能达到这样的翻译水平呢?这些难以回答的问题和令人尴尬的事实,便是数智时代对语言研究的挑战——致命,但又充满了诱惑。

反思当下,可能还得回到语言学要寻求的规律是哪类语言规律这个基本问题上来。语言学家需要将自己关注的重点回到真实文本上来,在语言的使用中发现语言系统的运作规律,从而让语言学更好地服务于人类社会。

学者对于语言使用中蕴含着语言规律这一观点并不陌生。现代术语学的奠基人维斯特认为,“鲜活的语言使用是语言发展中最高的立法者”。哲学家维特根斯坦说过,“一个词的含义是它在语言中的用法”。从现代语言学之父索绪尔的《普通语言学教程》中,我们也可以引出如下一些与语言使用密切相关的思考:如果语言是言语的抽象,是平均数,那么仅用逻辑代数的形式化来研究语言或许是不够的,应该寻求一种计算平均数的方法,使语言尽可能逼近人类的语言系统;如果语言源于言语,而且还是“确定”的,那么需要通过什么方法来确定这个“确定”;如果语言来自言语活动,是集体的产物,任何脱离使用者的过于抽象的形式方法,都可能难以发现人类语言系统真正的运作规律,从而无法被需要规律的领域使用,这也许就是语言学家在数智时代失语的根本原因之一。

基于深度学习的自然语言处理领域取得突飞猛进的发展,在很大程度上比以前更好地实现了维特根斯坦“意义即用法”的思想。从大规模的文本语料中获得词的用法信息,几乎成了当前自然语言处理的标准操作。这种方法不仅解决了语义不可分解的难题,也得到了可比的词义平均值,甚至还获得了宝贵的常识。这个值能随着使用的变化而变化,学得越多懂得也越多,不仅充分反映了语言的概率性,也解决了自学习的问题。从这个意义上讲,数智时代或许是语言学研究者走出“花园”、走进人类语言“灌木丛”的最好时机。语言学家需要习惯语言的这种概率性,并学会用“在这种语境下大多数人会这么说”来代替“这个句子对,那一个不对”。数据驱动的方法更符合语言的概率特质,可使语言学家从鲜活的人类语言使用中发现更具解释力和预测力的人类语言系统的运作规律。

伴随着技术方法的转变,我们也需要反思语言知识的获得与表征问题。人工智能的发展历史表明,基于深度学习的方法比此前基于规则的方法效果更好,但我们对于为什么能更好的原因所知甚少。我们需要从根本上反思,过去那些靠人类的直觉容易理解的知识获得和表征方法,是否反映了人类大脑的真实情况,或至少重构了人类知识获得与表征的核心部分。从现实看,答案是否定的。拿语言处理来说,无论是语言的理解还是生成,都会用到各种知识;但对于具体在何时用何种知识,我们却不清楚。语言学家获得和验证这些知识用的都是人脑,这也许掩盖了知识获得不足和不完整的问题,进而造成“获得不足,验证来补”的困局。基于深度学习的数智技术给我们带来了新的发现,这些基于真实语料的人工神经网络不仅有助于我们理解语言知识的获得、表征和处理,也有助于探索大脑的工作机理和智能的产生机制。

本着这个思路,数智时代的语言研究需要更关注从真实语料中发现人类语言的规律和模式。具体来说,可以从以下两个维度展开。一是从真实语料中发现语言的线性结构规律。因为“线条性”不仅是语言最重要的本质属性,也是为数不多的可客观测度的语言特征。二是从网络科学的角度探索语言网络的模式与规律。语言规律源于语言使用,语言研究亟须在内省的基础上加入更多的数据驱动的养料。

在线性与网络规律的探求方面,前者在传统的语言学领域已有不少研究,只需要加进去更多统计的成分便可。而对于后者而言,所谓“主流的语言学”几乎一无所知。因此,在坚守传统的同时,我们可能需要回到鲜活的日常语言使用场景,回到现实的数智世界。只有这样,我们才能发现真正反映语言现实世界的规律,语言学也才能更好地服务于需要语言规律的其他领域。数智时代向语言理论研究提出了严峻挑战,如何将这些挑战转变为机遇,是摆在语言学研究者面前的一项迫切任务。

(作者系浙江大学求是特聘教授)

关键词: 语言学家 语言研究 数据驱动