查看原文
其他

刘海涛:写在《依存关系与语言网络》前面的话

刘海涛 科学出版社
2024-09-03

刘海涛,国际世界语学院院士,教育部“长江学者”特聘教授,国务院政府特殊津贴获得者。浙江大学求是特聘教授,博士生导师;广东外语外贸大学云山领军学者,北京语言大学特聘教授。两次获省优秀博士论文指导教师,国内外多种语言学出版物的编委会成员。连续八年入选爱思唯尔“中国高被引学者”榜单。用多种语言在数十种文、理、工出版物发表过涉及数十种人类语言的成果300余篇(部),被WOS核心库收录100多篇,多篇论文入选ESI热点论文与高被引论文。12项成果获教育部与省级社科奖。



  

过去十多年来,基于依存树库等真实语言资源,我们的团队用多种语言在数十种国内外刊物发表了涉及数十种语言的上百篇文章。这些成果发表后,得到了同行的认可与引用。其中,有12 项研究获得了教育部与省级社会科学奖,多篇论文入选了ESI 热点论文与高被引论文。笔者本人也连续八年入选爱思唯尔(Elsevier)“中国高被引学者”(Highly Cited Chinese Researchers)榜单。我们在GlottometricsJournal of Cognitive ScienceJournal of Chinese LinguisticsLanguage Sciences 等期刊上发表的文章,在Web of Science 上的被引数目前均在期刊相应年份之后刊发的全部文章中位列首位。由于这些研究成果大多是用英文在国际期刊上发表的,因此在这里有必要先简要介绍一下这些研究的情况。

 

句法结构可从层级性和线性两方面进行研究。层级性是人类语言的重要特性。句子由词组成,但词在句中的重要性是不一样的,是分层次的。通过对多种语言句法标注语料库的分析,我们发现人类语言句子中各个层级的词语的出现频率是有规律的,这些分布函数中的参数可能反映了人类语言结构或类型的差别。随着层级数的增大,上一层词支配下一层词的数量存在逐渐降低的趋势。在此基础上,我们也提出了衡量句子结构树层级复杂度的指标,并对依存结构树的树宽、树高和句长之间的协同关系进行了考察。从句子的线性特征看,我们不仅创新性地提出了一些数据驱动的语言研究方法和计量指标,而且也用这些方法与指标对数十种语言进行了研究。

 

▲ “The small streams make the big rivers.”的依存树

 

具体说来,我们提出了一种基于依存句法树库计算依存距离的方法,并采用20 种语言的真实语料验证了以下三个假设:


  • 第一,人类语言分析机制偏好能将句子平均依存距离(Mean Dependency Distance,MDD)最小化;

  • 第二,人类语言存在一个平均依存距离的阈值;

  • 第三,语法与认知的协作使得语言的依存距离保持在此阈值内。


研究发现,在所研究的20 种语言中,汉语的依存距离最大。一种语言的平均依存距离可能也与语言的类型有关。该研究不仅在世界上首次使用数十种语言的真实语料验证了依存距离最小化是人类语言句子结构的一个普遍模式,而且也用大量多语种语料证实了认知机制影响语言结构模式或认知本身隐于语法之中的观点,将语言普遍性与认知普遍性通过数据联系在了一起。研究提出了一种基于依存树库的语言类型学研究方法,并进行了相应的实证研究,发现语序类型是连续的,而不是离散的,开辟了用大数据进行语言类型研究的新路子。这种基于真实的标注语料研究语言类型的方法被麻省理工学院Massachusetts Institute of Technology,MIT)等机构的学者称为“刘-有向性”(Liu-Directionalities)指标,这种方法不仅是一种新的探索句法参数的概率方法,也是一种新颖的、先进的现代语言类型学方法。

 

▲ 20 种语言的MDD

 

其中,依存距离可被视为一种计算认知科学的指标,而依存方向则为基于真实语料的语言类型研究提供了可量化的手段。为了使这两个指标更坚实,我们调查了影响依存距离和依存方向的三大因素:句长、语体、标注方式。研究表明,依存距离的概率分布不受句长、语体和标注方式的影响,依存方向是一种比依存距离更可靠的语言分类指标。拿句长来说,无论句子长短,汉语的平均依存距离总是高于英语,虽然两种语言中相邻依存关系的数量总体相当,但随句长变化的趋势是有差别的。句子越长,其平均依存距离也越大,但增长速度非常缓慢,这是因为依存距离同时受工作记忆与语法的约束,不可能无限制增长。

 

我们也创新性地采用了标注方式和语料类型均不同的句法树库研究一种语言的计量研究方法,发现汉语的依存距离均值约为2.84,汉语中40%~50%的依存关系不是在相邻的词之间形成的,汉语是一种支配词置后略占优势的混合型语言;汉语支配词居前的依存距离均值明显大于支配词置后的依存距离均值。除此之外,汉语也是我们研究配价与依存距离、组块与句子复杂度、语言多层级分布规律的主要语言资源,我们也用依存距离最小化更好地解释了人在处理诸如“咬死猎人的狗”之类的歧义句时的心理偏好。

 

▲ 20 种语言的MDD 支配词居后分布

 

在探寻依存距离最小化的形成机理以及语言系统内部各子系统间的复杂关系方面,我们采用多种语言语料对相关问题进行了量化实证研究,不仅对依存距离最小化这一人类语言普遍特征的形成机理进行了多角度的探索,也发现了一些新的规律。例如,在对比研究自然语言与随机语言的依存距离分布时,发现自然语言符合右截尾Zeta 分布,随机语言则没有这样的特点;自然语言的平均依存距离最小;依存句法树的投影性特征能够有效缩减依存距离。我们还研究了依存关系、支配词与从属词、动词作为支配词、名词作为从属词、语篇关系、语义角色关系等的概率分布,发现它们大多符合Zipf-Alekseev 分布规律。这些语言计量研究表明,人类语言在多种层级上均展现出了自适应系统的特征与规律。

 

同时,我们考察了30 余种人类语言真实语料,发现短句依存距离分布一般符合指数分布(exponential distribution,ED),而长句则更倾向于幂律分布(power law distribution,PLD)。这说明当句子变长时,在使用者的认知机制驱动下,语言系统会启动一种自适应机制,使得句子的依存距离尽可能变小,从而实现依存距离最小化这个人类语言系统运作的小目标。计算机仿真和真实语言结合的研究显示,组块就是人们在处理长句时,提高交际效率、降低句子难度的一种动态结构或自适应机制。本书《》,刘海涛著. 北京:科学出版社,2022.8)有关研究得到了几位审稿人的高度评价,评语中不乏“创新的想法”“重要的一步”“原创的工作”“开拓性的研究”等表述。

 

▲ 30 种语言的拟合模型与句长的关系

 

以上这些研究与发现,一方面扩大了我们对人类语言线性结构模式和规律的认识,而且对于发现人类语言的结构与演化规律、探索语言作为一种复杂适应系统的运行机制也都具有较大的科学价值;另一方面也有助于构建更好的自然语言处理系统和解决某些应用语言学的关键问题。这些规律也为探索语言与认知、语言与思维的关系提供了更加坚实的实证基础,对从语言行为结果中发现人类的认知规律以及从人类认知的角度解释语言行为均具有启示意义。我们受邀为国际权威学术刊物《生命物理学评论》(Physics of Life Reviews)(JCR 影响因子为13.84)所撰写的题为《依存距离:自然语言句子模式的新视角》(“Dependency Distance: A New Perspective on Syntactic Patterns in Natural Languages”)的长文(2017)刊出不久后,便进入ESI 热点及高被引论文榜单,成为国际计算认知科学领域的重要参考文献,目前在Scopus 引文数据库中已被人文社会科学、理工农医等18 个学科的研究所引用。

 

当然,依存距离从来都不是一个简单的距离问题,也不是一个纯粹的学术问题。2018 年,揭春雨和刘美君在其主编的《实证和语料库语言学前沿》中,提到MIT 团队2015 年在PNAS 上发表的有关依存距离的论文“因没有引用刘海涛更早发表的基于20 种语言的语料库的类似发现而一时闹得沸沸扬扬,名声大噪。后来,PNAS 非常罕有地提出更正、补引刘文”。有趣的是,时间都过去好多年了,这个问题前些日子又在推特上被爆出来,让人闻到了一点“炸药”的味道。为什么依存距离的多语实证研究会和“炸药奖”(诺贝尔奖)有联系呢?回到2015 年,在MIT 的依存距离文章在线发表的当天,Science 杂志网站便推出了相关报道。随后,又有许多知名媒体跟进报道,其中一家报道的标题颇为诱人——“一种语言共性为富有争议的乔姆斯基理论带来证据”。人们激动的原因在于,这可能是第一个支持普遍语法的、涉及数十种语言的实证研究。诺姆·乔姆斯基(Noam Chomsky)是目前在世的被引率最高的学者之一,很多人认为如果其普遍语法可以得到实证支持,那他大概率是有机会获得诺贝尔奖的。按照诺贝尔奖的一般原则,验证理论的学者也是有机会一起获奖的。因此,MIT 团队的依存距离研究引起如此轰动,也不难理解。然而,这一研究的主要发现几乎在我们2008 年的文章中都可找到,但文中却没有提及我们的研究。这当然从哪一个角度都是说不过去的,于是就有了延续至今的故事。

 

说到诺贝尔奖,2021年的物理学奖颁给了研究复杂系统的三位学者后,各种有关复杂系统的微信公众号便极为活跃,其中有两篇推文的标题是“他们破译了地球气候及其他复杂系统的隐秘规律”和“复杂系统分析利器—网络科学”。把这两个标题连起来看会更有意思,一是复杂系统研究的目的是探求系统的隐秘规律;二是分析复杂系统需要工具,而网络科学便是这样的利器。如果语言是一个复杂系统,那网络科学或许就是发现语言系统隐秘规律的利器。这一点使笔者想起了自己十年前的一篇文章的标题—“语言网络:隐喻,还是利器?”因此,无论从哪一方面看,采用网络科学的方法研究语言可能都是必要的。

 


我们对语言网络的研究大致可分为以下三类:第一,语言网络的整体特征,这也是网络科学作为研究复杂系统利器的主要应用场景;第二,语言网络的局部特征,重点关注局部与整体的关系,特别是局部变化如何影响整体特征的问题;第三,语言网络的应用,主要探寻用网络科学的方法能否解决语言学的基本问题。

 

在语言网络整体特征方面,我们研究了多种语言的音素、字同现、词同现、句法、语义角色网络,提出了复杂网络对于语言学家而言是手段,而不是目标的观点;构造并研究了两种语体的句法复杂网络,开辟了用复杂网络方法研究语体和类型的新路向;发现句法对语言网络有一定的影响,但在判断一个网络是不是句法网络时,无尺度只是必要条件,而非充分条件;构建并研究了语义角色复杂网络,发现语义网络与句法网络在层级结构和节点度相关性方面存在明显不同。

 

▲ 汉语多层级网络的构建

图中使用三个汉语句子来说明如何在四个不同的语言层面上均构拟了无向和有向的语言复杂网络。在这四个层面上所构拟的语言复杂网络分别为:动态语义网络、句法依存网络、词同现网络和汉字同现网络。

 

在语言网络的整体与局部关系的探索中,以现代汉语为例,我们研究了作为多层级系统的人类语言的结构特征,发现各个层级的网络模型反映了各层级系统的共性与联系,并表明语言的多种特征与人类认知之间存在着密切联系。这项研究是世界上最早的多层级(multilayer)复杂网络研究之一,不仅有助于我们从多层级的角度来理解人类语言系统,也丰富了网络科学理论。复杂网络注重整体的特质,使得它非常适宜于研究某些词(类)对语言系统的影响。我们对汉语主要虚词在汉语句法网络中的作用进行了研究。结果表明,汉语缺乏形态并不意味着它没有句法,也不意味着就能给它贴上“意合语言”的标签,因为在正常人的世界里又有多少非“意合”的语言呢?

 

在运用网络科学方法解决传统语言方面,我们构造了15 种语言的句法复杂网络,并采用复杂网络研究了语言类型(分类)问题,发现句法复杂网络可以反映语言的形态变化程度,该方法弥补了语序类型学在处理语序相对灵活的语言时的不足,有助于解决语序灵活语言的分类问题。我们构建了12 种斯拉夫语族语言和2 种非斯拉夫语族语言的平行词同现网络,并对这些网络的主要参数进行了分析。研究发现,平行词同现网络可用于同一语族内部语言的精细分类,而且文字形式并不会影响到语言的类型特征以及分类结果。通过对15 种语言真实语料构建的依存树库与句法网络的计量分析,我们研究并回答了以下两个问题:从历时的角度看,拉丁语是否与其他六种主要的罗曼语族语言在句法上有明显的不同?从共时的角度看,六种主要的罗曼语族语言是否具有某些共同的句法特征,以至可将它们归为同一个语族?通过研究过去2000 多年来各个时期的汉语词同现网络,我们考察了语言作为一种复杂适应系统的演化路径。与传统方法相比,复杂网络方法有助于通过宏观与微观结合的科学方法,更客观地探求语言演化的规律及其背后的动因。

 

▲ 12 种斯拉夫语言的语言网络全景图

 

我们采用复杂网络方法研究了二语习得中的句法涌现现象。结果发现,与母语习得不同,二语习得过程中没有出现句法涌现。这样的结果是可以被理解的,母语习得如同在白纸上画画,而二语习得是在已有的母语基础上的再创作。这一研究从复杂系统的角度验证了母语与二语的句法形成机制是不一样的。为什么不一样?二语句法结构为什么会受母语的影响?是语言习得关键期在起作用,还是由于学习者的模仿类比机制更成熟,省力原则开始起作用了?这些问题已经触及了现代语言学的根本问题。

 

由于复杂网络与目前人工智能深度学习所采用的方法的同构性,我们采用复杂网络方法的多项研究也已被多个人工智能分支学科的学者所引用。这些研究不但加深了我们对人类语言网络结构规律的理解,拓展了复杂网络在人文、社会与生命科学等领域的应用,而且将语言研究与自然科学中的研究前沿联系在了一起,从而有助于从更广阔的视域理解人类及其语言,丰富了语言研究的方法,推动了语言研究的科学化进程。我们在2014 年发表了《采用复杂网络研究人类语言》(“Approaching Human Language with Complex Networks”),这篇文章目前已成为语言复杂网络研究领域的重要参考文献。国际知名语言复杂网络研究者拉蒙·费雷·坎乔(Ramon Ferrer-i-Cancho)博士在评价我们的研究时说:“基于网络方法,丛与刘正在定义未来的语言学,这种方法正孵育、更新并统一理论语言学。”当然,他说的理论语言学一定不是语言学家口中的那个理论语言学,而是一个科学家的有感而发。

 


实事求是地讲,这些研究具有鲜明的大数据、人工智能、新文科、数字人文、交叉学科等时代特征,也充分展现了我们团队的学术特点:多语种大规模真实语料、交叉(跨)学科研究方法、人类语言普遍规律的探寻、学术成果的国际化。所有这些听起来不错的元素使我们认为,这些大多发表在国外的成果,也许会对其他有志于在国际舞台上展现中国语言学家的风姿、有志于站在祖国大地向世界发出中国声音的同行,具有一定的参考价值。

 

显而易见的是,我们刚才列举的这些研究成果与发现,可能与我们在语言学的出版物中常看到的东西有很大的不同。我们还很难说这就是21 世纪的语言学该有的样子,但这些发现无疑能更好地把系统、概率、数据、定律、模式和科学等反映人类语言系统特征的元素联系在一起,不仅有助于我们理解语言这个人驱复杂适应系统的运作规律,也有益于破解人类在知识获得与表征方面“获得不足,验证来补”的困局。因此,我们决定将我们过去十多年来在依存句法计量研究和语言复杂网络领域的主要成果整理成书,希望能为有缘的读者打开一扇通向语言科学的未来之门和一扇探索人类语言系统隐秘规律的智慧之窗

 

2009 年,笔者的《》由科学出版社出版,这是一部重点关注依存语法的历史与传统、追寻依存关系作为人类语言系统基本构成要素、探究依存关系作为自然语言处理基础的著作。十多年来,这本书不仅受到语言学研究者的欢迎,在自然语言处理领域也获得了好评,成为相关领域从业者的必读书,重印多次,仍供不应求。坊间亲切地称其为“蓝皮书”。


如果说2009 年的“蓝皮书”关注的重点是数千年来人类语言研究的历史和传统,本书则是在继承传统的基础上,立足国内、走向世界、面向未来、与时俱进的创新与发展之作。限于篇幅,本书主要聚焦于对语言规律的探索与发现,而对于使用这些规律更多的应用研究,只能留待以后再丰富、补充了。

 

李国杰院士在为《可视化未来:数据透视下的人文大趋势》所写的序言中认为:“数据密集型科学研究已上升到与科学实验、理论分析、计算模拟并列的科学研究‘第四范式’……大数据……对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。”我们十多年来的实践也表明,用数据密集型(数据驱动)的范式来研究语言,不但有益于从各种相关中追寻因果,加深对语言与认知关系的认识,进而更好地发现语言的结构模式与演化规律,也有助于推进语言学研究的科学化与国际化。

 

霍金说:“智能,就是适应变化的能力。”在人工智能时代,具有自然智能的人可能得更努力一些;否则,机器为什么要服务于不如自己的物种呢?从某种意义上讲,本书就是我们适应社会变化和应对数智时代对语言理论研究提出挑战的产物



本文摘编自《》(刘海涛著. 北京:科学出版社,2022.8) 一书“写在前面的话”,有删减修改,标题为编者所加。

借助大规模真实语料探究人类语言的本质规律及其机制,是数智时代语言学家的主要任务之一。本书精选了作者及合作者近年来的研究成果,较为系统、全面地展示了以大规模依存树库为基础,围绕语言的线性结构和网络结构对语言这一“人驱复杂适应系统”所做的探索,其中包括已在相关领域得到广泛认可的“依存距离最小化”和“依存方向连续统”等。全书内容丰富、结构明晰、友好易读,较好地回答了“什么是数据驱动的语言研究”、“为什么要开展相关研究”,以及“应该如何开展”等问题。本书不仅适合作为语言学相关专业的教学用书,也可作为人工智能、自然语言处理、认知科学、网络科学等领域研究者的参考读物。

 

(本文编辑:刘四旦)


一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质  学术价值

原创好读  科学品味

科学出版社 视频号

硬核有料  视听科学

传播科学,欢迎您点亮星标,点赞、在看▼

继续滑动看下一个
科学出版社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存