计量语言学的内涵与发展

发布时间:2020-09-22 14:56浏览数:1179评论数:0 收藏

近年来,计量的方法受到越来越多语言研究者的关注,应用领域持续扩展,研究方法不断完善,形成了语言学的一个独特分支——计量语言学(刘海涛、方昱 2018)。

国内语言学界对计量语言学的了解尚不充分。然而,在国际上,计量语言学的学术团体、学术刊物、学术会议发展迅速,在理论构建与实证研究方面取得了丰硕成果,已经发展成为一门比较成熟的学科(冯志伟 2017)。莱茵哈德·科勒(Reinhard Köhler)强调无论是理论探索、还是在语言科技的实用性方面,计量语言学均属于最具发展潜力的语言学分支学科之一(科勒 2017)。

本期热点节选浙江大学刘海涛教授的《计量语言学导论》(2017)、揭春雨、刘美君的《实证和语料库语言学前沿》(2018)、莱茵哈德·科勒的《句法计量分析》(2019)等著述中的部分内容,从计量语言学的缘起、概念的内涵、研究方法和研究进展等方面展开讨论,供广大高校英语教师学习参考。

冯志伟  教授 专家简介

计量语言学以真实的语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的关系作为研究对象,使用概率论、随机过程、微分方程、函数论等统计的、非离散的数学定量方法,对其进行精确的度量、观察、模拟、建模和解释,以探索语言现象中隐藏的数学规律,刻画语言的数学面貌,揭示语言系统的自适应机制以及语言演化的动因,从而发现自然语言中存在的各种定律,如分布定律、函数定律、演化定律等。因此,计量语言学是以真实语料为基础、用计量的方法来研究语言的结构和发展规律的一门语言学科。

它与计算语言学不同,这门新学科的目的不在于建立自然语言处理的应用系统,而在于使用计量的方法来探索语言的数学面貌,发现隐藏在语言现象中的内在的数学规律。我们在进行计算语言学工程性应用系统开发的同时,不可忘记使用数学方法,从计量的角度来进行语言的基础研究,使得计算语言学有坚实的语言学基础。正是出于这样的理由,我们来讨论一个更加带有基础性研究色彩的语言学新学科——计量语言学。

从学科分类的角度看,我认为计量语言学属于数理语言学,是数理语言学中与代数语言学并驾齐驱的一个分支学科。计量语言学使用计量方法对于语言结构和发展规律的探讨,将给计算语言学的工程应用提供坚实的理论基础,推进计算语言学的发展。

用数学来研究语言的想法,早在19世纪末叶到20世纪初年就有人提出过了,其中不乏索绪尔、布龙菲尔德等著名语言学家的很有价值的观点,但这些思想没有对当时的语言学研究产生显著的影响。这是由当时的社会实践的要求决定的。因为当时的语言学,主要是为语言教学、文献翻译、文学创作和社会历史研究服务的。在这样的实践要求下,语言学没有多大必要与数学接近。

近年来,数理语言学成了语言学、数学、计算机科学、人工智能等学科所共同关注的重要领域。数理语言学的研究应该从语言的内部结构和语言的交际活动两方面来进行,也就是说,我们可以把数理语言学的研究分为对作为符号系统的语言的数学性质的研究和对作为交际活动的过程及结果的言语的数学性质的研究两个部分。作为符号系统的语言,本质上由一些离散的单元构成,可以采用集合论、数理逻辑、算法理论、图论、格论等离散的、代数的方法来研究它,这方面的研究就叫做代数语言学(Algebraic Linguistics)。在言语中,在用语言进行交际的活动中,有的语言成分使用得多些,有的使用得少些,各语言成分的使用有一定的随机性,而交际过程本身又是一个信息传输的过程,可以使用概率论、数理统计和信息论等统计的、非离散数学的方法来研究,这方面的研究就叫做统计语言学(Statistical Linguistics)。

当然,语言与言语、语言能力与语言运用之间也是有联系的。因此,代数语言学与统计语言学之间也有联系。我们要研究作为符号系统的语言的数学性质,就要注意到各语言成分的统计特征,而在对言语作统计研究时,也必须考虑整个语言符号系统的总体。在数理语言学的语言统计研究的基础之上,诞生了一个新的分支,叫做“计量语言学”(冯志伟 2012)。

 

摘自:

冯志伟,2012,用计量方法研究语言,《外语教学与研究》(2):256-269。

顶票:1; 踩票:0    

刘海涛  教授 专家简介

计量语言学是一门既年轻又古老的学科,现代意义的计量语言学诞生于20世纪初期,至今不过百年。1964年,英国统计学家赫尔丹(Gustav Herdan)在《计量语言学》(Quantitative Linguistics)一书中首次使用“计量语言学”这一术语。虽然“计量语言学”出现的时间不长,但是在语言研究中,人们使用计量方法的思想却由来已久。早在语文学(philology)阶段,就有学者使用计量的方法(如词频、字频统计分析等)来研究语言。

计量语言学强调定量的概念和建立模型的方法,着眼于语言的量化特征以及这些特征之间的协同关系。这一研究方法上的特点说明计量语言学和其他注重事实的实证学科一样,强调引入科学的方法和工具来解释语言的性质、机制、功能和演化,这与语言学的其他分支形成了鲜明的对比。计量语言学研究流程一般包含以下五个步骤:第一步,建立语言学假设。第二步,假设的统计学转换。第三步,统计方法应用。第四步,结论。第五步,解读。现代语言学普遍认为语言是一个系统,因此也有必要研究语言在系统层面上的整体特征。将复杂网络(complex network)的方法引入计量语言学领域,初步实现了对语言整体特征的计量研究。

经过几十年的努力,各国计量语言学者已经发现了不少具有普适性的计量语言学定律。这些定律可以分为三类:分布定律(distributional law)、函数定律(functional law)和演化定律(developmental law)。分布定律描述了语言结构在语言系统和语言使用中的定量特征。函数定律用于描述不同语言结构及其属性间的相互关系。演化定律则建立了相关语言性质的动力学模型。齐普夫定律、门策拉-阿尔特曼定律、皮奥特洛夫斯基-阿尔特曼定律分别是这三类定律的代表。

计量语言学研究问题涵盖语音、语法、词汇、文本、类型学、协同语言学和语用学等多个方面。词汇层面的研究最为成熟。如果将齐普夫研究词和词序关系看作是现代计量词汇研究的开端,之后的研究者不断关注词汇的其他性质、如词长、多义度、多文度等,最终形成了较为完善的词汇协同系统模型。与词汇层面相比、句法层面则处于方兴未艾的阶段。依存距离最小化与人类的认知机制密切相关,体现了工作记忆对句法的制约作用,这一发现说明语言学研究不应该是孤立的,应加强与其他学科的联系。除工作记忆外、依存距离的幕律分布从语言学本体角度为依存距离最小化提供了支撑,这也符合齐普夫所说的最省力原则。同时,依存方向为语言分类、语体分类等提供了新方法。语言是一个复杂自适应系统,因此研究者将物理学中的复杂网络研究方法和社会学中的社会网络分析方法引入语言学研究中。将人类语言作为分层系统的复杂网络研究有助于我们加深了解语言各层面的特点,了解语言产生和语言理解的整个过程;复杂网络在语言分类和文本分类研究中的有效性已得到证实,这一发现是对传统语言学分类方法的一个拓展。而对语言的宏观结构与微观结构之间关系的研究反映出部分对整体的影响,进一步反映了语言作为一个复杂适应系统的特点。

 

摘自:

刘海涛,2017,《计量语言学导论》。北京:商务印书馆。

刘海涛、方昱,2018,《计量语言学研究及其最新进展》。北京:中国社会科学出版社29-58。

顶票:1; 踩票:0    

莱茵哈德•科勒  教授 专家简介

在较为熟悉的学科,尤其是在自然科学中,定量的概念、模型和方法已经应用了很多年,而这些在语言学和文本科学中应该以同样的方式得以应用。这些论点符合科学哲学中的公认标准,且在多个学科中都有效。除此之外,就语言学而言,下面这些问题也值得重点关注:

1. 仅仅用定性概念无法精确、完备地描写语言和文本现象。定性的方法只能描写一些极端的情形,对于某个特定的研究目的,用范畴概念就足以描写这些极端的情形。

2. 定性方法的局限性,使得语言或文本的大多数属性和相关性都无法得以发现。

3. 必须建立一个完备的概念和方法体系,才能使研究上升到更高的层次。这就需要对语言进行更加精确和深刻的分析,对其相关性和机制进行建模,最终形成普适定律并建立语言学理论。

4. 即使为了方便讨论,假设定性方法足以描写语言现象,那任何解释这些语言现象的尝试都会揭示一些语言之外现象的计量特征。交际成功的标准、实现某种目的的语言手段的适宜性、记忆容量、声学信道的干扰、辨识声学特征的能力、交际效率等,这些无疑都是可以比较、排序或度量的量。由此,外部边界条件、全局与局部的系统变量之间的联系与依存都自然而然地由定量手段分析出来了。除此以外,对于在语言分析的各个层面上的总藏大小、单位长度、嵌入深度、复杂度、位置、存在时间、频数、多义度、语境度、语义透明性、象似性等这些语言系统的核心特征,谁又能说它们没有定量的特点呢?

 

摘自:

莱茵哈德·科勒,2019,《句法计量分析》。北京:商务印书馆。

顶票:0; 踩票:0    

发表您的观点 共有0人发表了0条评论及答复