19-4 模糊语言学(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一.模糊语言举例

蔬菜与水果、蔬菜与主食之间的界线并不清晰。通常情况下,油菜、白菜等明确归类为蔬菜,苹果、雪梨等明确归类为水果,大米等明确视为主食。表面上看,似乎可以将蔬菜与水果、蔬菜与主食明确区分开来。然而,实际情况并非如此。例如,土豆在湖北、重庆、四川等地常被视为蔬菜,但在广东等地则既可作主食,也可作蔬菜。同样,西红柿既可以被归类为蔬菜,也可以被视为水果。那么,究竟该如何界定蔬菜、水果与主食的范围呢?

"春"、"夏"、"秋"、"冬"除了在天文学上有精确的规定外,在日常用语中它们所表述的时间都是模糊的,它们之间很难找到一条泾渭分明的界线(如春天和夏天的分界线)。如中国人一般把阳历2月3号、4号或5号视为春天的开始,把阳历的5月5号、6号或7号视为春天的结尾。而欧洲人所指的春天是从3月20或3月21开始的,比中国约晚了一个半月。另外,北半球和南半球所指的四季时间则完全相反。

在英语中,专有名词与普通名词之间的边界也是模糊的。英语语法规定,专有名词是指某一特定的人、特定的事和特定的物,其开头用大写表示。而"sun"和"moon"都是世界上独一无二的东西,但是它们的开头多半是用小写。

再如"期中"考试一词,A大学是指5月5号到5月7号,B大学是指5月20号到5月23号。那么"期中"到底是指从几月几号到几月几号呢?由于"期中"并没有一个确定的界线,因此它是模糊的。

树木和树林的界线又再哪里,多于多少棵树算树林,少于则算树木。

总之,一个概念外延的范围是不确定的(外延的定义,16-1:演绎),这种语言学上的现象称为模糊。

二.模糊、含糊和歧义(我把书(张乔,1998)中的概括合并到含糊中)

1.定义

(1)模糊

模糊词汇是指其外延不确定的词汇(或者说其成员范围不确定)。如多高算"高"(180以上算高,还是指181以上算高...),或者多矮算"矮"。"脾气很大",首先"脾气"的所指或范围该如何确定,其次多大的脾气算是"脾气大"。

(2)含糊

含糊是指具有多种相似语义(义素)的词语或句子。如"好"就包含多个义素,如好(学生)、好(天气)、好(人)等。再比如,"城市"这个词既可以指大城市、也可以指小城市、既可以指古代城市、也可以指现代城市...。总之,就是对所有城市的一种概括名称。

就句子而言,"小王拿了我的自行车"分别可以指例1中的3个义素,而这三个义素相似。例中的三句话分别可对多个不同的场景进行概括,这些场景有相似的义素。如在例2句1中,可以指小王在任何时候任何地方见到小李,而不管这些时间和地点如何,它们都指"小王看见小李",因此它们有相同的义素;例句2可以指吃早饭、午饭和晚饭;例句3可以指专科、本科、硕士或博士学位等...。还有一个例子是关于"或"的。通过逻辑分解,"我早饭吃了鸡蛋或牛奶"包括有例3中的三个义素。

总之,含糊是指一个词或一句话包含了多个相似语义的现象。

例1

义素1:小王拿了我买的自行车。

义素2:小王拿了我借的自行车。

义素3:小王拿了我爸送我的自行车。

例2

句1:小王看见了小李。

句2:小王吃了什么饭。

句3:小王得到了学位。

例3

义素1:我早饭吃了鸡蛋。

义素2:我早饭吃了牛奶。

义素3:我早饭吃了鸡蛋和牛奶

(3)歧义

歧义指一个词或一句话包含多个词项,且这些词项在语义上无太多关联。如"米,它可以指一种计量单位,也可以指一种粮食。

注:词、词项和义素

词项是词的子集,即词可包含不同的词项。比如词"会"至少包含两个词项,分别为词项"会议"和词项"能"。当一个词的几个词项在意义上是互不相关时,则该词就是同音异义。如词"花"包括词项"花(钱)"和词项"花(朵)",那么"花"这个词就是同音异义。

而义素是词项的子集,即词项可包含不同的义素。如词项"能"包含义素"能够"、"可能"、"善于"和"懂"等。如果一个词项的几个义素在语义上是关联时,则它被称为多义现象。如词项"能"(词"会"的词项)包括的两个义素,"会说英语"和"会说话",它们属于语义相关,因此词"会"是多义的。

2.区别

含糊是指词或句子包含多个相近的意义(义素),或者说这些相近意义都可以概括在一个词或句子中。歧义也是指词或句子包含多个意义(词项),但这些意义差别较大。含糊和歧义是指词或句子中其内部意义的关系(相似或不相似),它们与外延无关。而模糊是指在一个意义中,该意义的外延边界并不确定。

三.模糊语义的特点

1.不确定性

它是指在语言中其外延上的不确定性。如上述举例中,存在一些介于蔬菜和水果、介于蔬菜和主食之间的实体,因此它们(蔬菜、水果和主食)之间的边界是模糊的;存在一些,既可能是春天,也可能是夏天的日期,因此四季的外延是模糊的;一些名词既有专有名词的特点,也有普通名词的特点。专有名词和普通名词的外延是模糊的;"期中"所指的时间范围是模糊的;很难"画出"树木与树林之间的明确边界,即可能存在一些既可以称为树木又可称为树林的实体,因此它们的外延也是模糊的。

另外,我们还能在相反关系和相关关系中发现模糊语义的不确定性。相反关系如"冷-热"、"软-硬"、"长-短"、"美-丑"、"饱-饿"、"新-旧"、"早-晚"、"真-假"、"对-错"...,另外还有双音节的相反关系,如"伟大-渺小"、"快乐-疼苦"、"干净-污浊"、"热闹-清净"、"公开-秘密"...,这些关系对之间的边界是无法确定的,比如多少度算冷,多少度算热,它们之间的边界是什么?

相关关系也存在其不确定性,如"童年"、"少年"、"青年"、"中年"、"老年"之间的边界是什么?另外还有"早晨"、"上午"、"中午"、"下午"、"傍晚",多少点多少分之内算早晨,超过了算上午。多少字以上算长篇小说,少于该字数算中篇小说,还有多少范围内的字算短篇?

2.确定性

模糊语义的不确定性仅仅表现在其边界上,但其中心通常是确定的。如油菜、白菜处于蔬菜的中心位置,因此它们可被明确的归于蔬菜类别。而桃子、香蕉等处于水果的中心,因此它们可被明确的归于水果类别;虽然不能明确确定春天的范围或者说春天与其他季节的边界,但是春天的中心是可以确定的,如4月15号。"China"和"location"分处于专有名词和普通名词的中心,因此它们明确属于专有名词和普通名词,不存在模糊情况。1000万棵树组成的肯定是森林,2棵树组成的是树木,它们都属于各自范畴的中心;另外,-10度的气温肯定属于冷,而45度肯定属于热。

3.变异性

变异性又分为界线的变化和模糊-精确之间的转换。

(1)界线的变化

界线的变化是指模糊语义的外延边界在不同条件(如时间、地点、情景等)下会发生改变。可以分为以下三种变化。

(a)上限确定,下限变化

如气温"热",可以将世界上最热的温度作为"热"的精确上限(如60度),它在世界上任何地方都是一样的,因此该上限是确定的。而"热"的下限在不同地方则不同,香港处于低纬度地区,而新西兰的纬度相对较高,因此香港对于热的下限一般比新西兰的高。

(b)下限确定,上限变化

如"矮个子",可以将世界上最矮的人作为"矮"的精确下限,该下限是确定的。但不同人群对矮个子的上限要求不同。如男人矮个子的上限要比女人矮个子的上限高。在NBA,1米8也算是"矮个子",但这个身高放在一般人中也算高个子。

(c)上下限均不确定

这种变化还可以分为两种情况,一种情况是虽然上下两个界线均不确定,但只有其中一端是变化的。如上个世纪90年代之前,中国人和外国人对"周末"下限的理解基本相同,即大致以周一早晨为准。但对其上限的理解则不相同,外国人认为的周末上限是周五下班的时候,而中国人只有周日一天是周末,因此中国人认为的周末上限是周六下班的时候。

另一种情况是,上下两端都会发生变化。如冬天所指的"黑天"比夏天所指的"黑天"的开始时间要早,且结束时间要晚(即冬天黑天的时间范围覆盖了夏天黑天的时间范围),如图1(a)。这种上下限均向其两极扩展或收缩(如开始时间更早,结束时间更晚;冷天气更冷,热天气更热等等)的形式称为延缩式;还如"黄昏"在夏季和冬季的时长大致相等,但其在冬季的发生时间更早,而在夏季的发生时间更晚。这种在维度上平移的形式称为平移式,如图1(b)。

图1(a)

图1(b)

(2)模糊-精确之间的转换

模糊语义和精确语义之间在一定条件下是可以互相转换的。如"红"是一个模糊词,但它与"卫兵"结合时,"红卫兵"的界线是相对精确的。又如"高血压"作为科学术语时,它是精确词。当将其作为日常用语时,其语义变为模糊。

(3)异变性的原因

(a)条件变化

同一个词在不同条件下可以有不同的界线,甚至可以在模糊-精确之间转换。包括但不限于:

时间条件,如三十多年前的托福考试,570分就能称得上"高分",但随着时间的推移,考生一年考得比一年好,现在没600分也称不上"高分"。

地点条件,如北半球的"夏天"大约在6、7、8月份,而南半球的夏天正好相反,大约在12、1、2月份。

对象条件,不同学校对"好成绩"和"差成绩"的界定是不同的。相较于普通高中,重点高中对好成绩所要求的分数高,其下限也高。

是否存在硬性规定的场景。颜色在日常生活中是模糊的。但在光谱学中,将6200-7600(单位:埃)人为确定为红、5920-6200(埃)确定为橙、5780-5920(埃)确定为黄、5000-5780(埃)确定为绿、4600-5000(埃)确定为青...。

通常情况下每种条件都不是单独作用,而需将几种条件综合起来考虑。即使同一个地区,不同人群对"高个子"的要求不同,如在北方或南方地区,或男子与女子。这个例子同时考虑了地域(北方或南方)和性别(男子或女子)两种条件。

(b)模糊限制语的使用

模糊限制语的作用在于限制模糊词的模糊程度。一个模糊词包含一定的外延,而该外延可以分为几个不同的部分,当将模糊限制语施加于该模糊词上时,相当于将其外延的某些部分挑选出来(或者说子集)。如"非常高"是模糊限制语"非常"与模糊词"高"的结合,它是指"高"中相对高的那部分外延。或者说,"非常高"是"高"的一个子集,这个子集对于"高"的其他外延部分是更高的。其他模糊限制语包括,接近、将近等。

模糊词界线的变化可以分为三类(上限确定,下限变化;下限确定,上限变化;上下限均不确定)。类似的,模糊限制语也可以分为三类,包括:(a)指外延上限的部分,如非常(高)、相当(高);(b)指外延下限的部分,如有点(高)。当不加任何模糊限制语时,可认为处于外延的中心区域,如(高);(c)一些模糊限制语可以与精确词结合,使其模糊化。如"20"是精确词,当加上模糊限制语"大约"时,"大约20"是模糊词。

模糊量词是语义界线不确定的量词,如"许多学生"。它由模糊限制语(许多)和表达式(学生)构成。根据模糊限制语的不同可以分为三类:

第一类只有一个模糊限制语,如许多学生、有些学生、大部分学生等。

第二类是复合式,它由前/后的模糊限制语和数词构成,如二十多个学生、二十个学生左右、将近二十个学生等。

第三类被称为准模糊词,因为它们外延界线的一端是相对精确的,如"多于二十个学生",它的下限是20个,而上限不确定。

还有一类模糊限制语用于说明它们是从哪个方面作用于模糊词的,如基本上、严格来说、从技术上来说、在某种程度上等等。

(c)语义感染

语义感染,即与其他词结合。如"儿童"和"成人"之间是模糊的,但是加上"票"变为"儿童票"和"成人票"时,其界线就变为精确了。"男人"是精确的,但加上"勇敢的"变为"勇敢的男人"时,其界线就由精确变为模糊了。

总之,不确定性和确定性都不是固定不变的,在一定条件下它们之间会发生变化,从而表现出模糊语义的变异性。

4.模型

模糊词的界线分布主要有两类,包括"正态分布类"和"单调分布类"。模糊词的外延中心确定性高(不确定性低),而外延边缘确定性低(不确定性高)。当外围边缘多于一个方向时,该模糊词属于正态分布类;当外围边缘只有一个方向时,该模糊词属于单调分布类。

"大约(另外还包括,左右和近似等)+数词"是正太分布类。"大约20"的中心是20,而15和25则是它的边缘(分别属于两个方向)。虽然"大约20"和"大约20000"所指的范围不同,即符合"大约20"的数字数量范围不会超过20个(10-30),而符合"大约20000"的数可能有数千个。但它们都同属正态分布类模型,即它们的边缘方向数都为2。春天的外延边缘也有两个方向,一个趋向夏天,一个趋向冬天...。相反关系的模糊词(高-低、宽-窄、长-短)均是单调分布类,如"高"只有一个与"低"邻近的边缘,即它的下限。而不管它的上限是多少,均属于高的中心。

5.无标记和有标记

无标记和有标记是针对相反关系模糊词的一种规律。许多语言都存在这样一种现象,程度高的词(高、宽、长)可以用于表示程度低的词(低、宽、短)。如我们询问高度时,会说"有多高",而不会用"有多低";询问宽度时会问"有多宽"...。另外,在构词法中,使用"高度"表示高度,而不会使用"低度"表示高度...。在相反关系中,包含另外一端的称为无标记(高、宽、长),而被包含的称为有标记(低、宽、短)。另外,在表示性别的词中,雄性通常是无标记,而雌性通常是有标记的。如dog既可指公狗,也可泛指狗。而bitch只能指母狗。造成这种现象的原因可能是无标记的词的显著性更高,如"大"物体与"小"物体相比,大的物体总是更显著,更容易吸引人的注意和造成印象。因此它们也更容易成为无标记。

四.模糊词的解释

模糊词的解释有两种,一种是使用模糊理论,另外一种是使用关联理论(19-23:语用学)(在一些书中称为适用性理论)

1.模糊理论

集合是现代数学的基本理论,它表示一个包含某些属性的所有对象的全体。如14-35周岁的所有人组成了一个称为"青年"的集合。在集合论中,当某个人属于这个集合时,使用1表示;当这个人不属于这个集合时,使用0表示。但正如模糊词理论所述,因为概念的外延边界是模糊的,所以很多东西不是集合论所解释的那样,非0即1。如36岁,可能有些人(某些条件)觉得属于青年,有些人觉得不属于,又或者有些人觉得一定程度属于而一定程度不属于。所以36岁不是一定属于"非青年",也不是一定属于"青年",而是处于某个不确定状态。基于此,可以使用模糊理论来表示模糊语言。在集合论中使用0或1两个数表示某一对象是否属于该集合,而在模糊理论中使用0-1的数值范围表示对象是否属于该集合的所属程度。0表示集合外部的外延中心,1表示集合内部的外延中心,而0到1的中间数值范围表示外延边缘。当越接近1时表示个体越可能属于该集合,越接近0时表示越不可能属于该集合。这些表示所属程度的数值称为隶属度

使用一个例子进行说明,一个数字大小判断任务需要让参与者指出1到10十个数字那些数字属于大,那些数字属于小。当数字越大时,该数属于"大"的隶属度就越高,反之则越低;当数字越小时,该数属于"小"的隶属度就越高,反之则越低。可以将大和小的隶属度表示如例4,其中"/"并不是表示除法,而是表示左侧的隶属度对应右侧数字。如在"大"这个模糊集中,"0.8/9"表示9属于"大"的隶属度为0.8," 0/4"表示4属于"大"的隶属度为0;而在"小"这个模糊集中,"0.2/5"表示5属于"小"的隶属度为0.2;"+"也不是表示加法,而是把这些元素连接起来,表示同一模糊集(又称隶属函数)。

例4

大= 1/10 + 0.8/9 + 0.6/8 + 0.4/7 + 0.2/6 + 0.1/5 + 0/4 + 0/3+ 0/2 + 0/1 (大模糊集)

小= 1/1 + 0.8/2 + 0.6/3 + 0.4/4 + 0.2/5 + 0.1/6 + 0/7 + 0/8 + 0/9 + 0/10 (小模糊集)

那么这些隶属度如何确定呢?如果有100个参与者参与这项数字大小判断任务,100个人投票7在1-10中是否属于"大",其中有40个人表示属于,那么7属于大的隶属度为40/100=0.4。

2.关联理论

(1)关联理论与模糊性

关联理论是如何解释模糊性呢?下面使用一个例子说明(例5)。关联理论认为,人类的认知具有最大关联性,即获得最大认知效果的同时付出最小的推理努力(Sperber和Wilson,2002)。在下面给出的三种信息中,虽然(a)所付出的认知努力最小,但是它的信息过于笼统而不可取。(c)提供了较为精确的信息,在认知效果上占优。但是它需要付出较大的认知努力。(b)则刚刚好,信息既不会过分笼统,也无需付出较大认知努力,因此达到最大关联。

例5

假设小王是一家私家侦探的雇员,他需要在一个繁忙机场的接机大厅里辨认一个人,公司给他提供的信息可能是如下三种形式中的一种:

(a)亚洲人,女性。

(b)日本人,女性、矮个子、比较胖、大约20岁。

(c)从东京来的日本人,女性,个子1米57,体重113斤,年龄19岁8个月。

三种信息的语境效果分析

人种信息:(a)所述的"亚洲人"过于笼统,(c)所述的"东京来的日本人"有点多余,而(b)所述的"日本人"更为可取。

性别信息:(a)、(b)、(c)所述信息相同。

身高信息:(a)缺乏这方面的信息,(c)所述的"1米57"有点多余,而(b)的"矮个子"更可取。

体重信息:(a)缺乏这方面的信息,(c)所述的"113斤"有点多余,而(b)的"比较胖"更可取。

年龄信息:(a)缺乏这方面的信息,(c)所述的"19岁8个月"有点多余,而(b)的"大约20岁"更可取。

Sperber与Wilson(2002)的另一个例子是当一个陌生人在街上向你问路时,如果时间是11点58分,你完全可以回答12点。首先,12点和11点58分几乎是没有区别的(对听话者来说差不多),因此它们具有相同的认知效果,而理解"12点"所需的认知努力要比理解"12点58分"的认知努力少。因此,根据关联理论的最大关联,回答12点最为合适。类似的还有以10块钱表示9.99元、用1米8表示1米78等。

(2)模糊or精确

关联理论是关于认知的语用理论,认知效果及关联性与语用环境(场景)有关,即用语所要求的模糊程度或精确程度需要结合具体场景分析。在例6中,女儿一开始使用"一些"表示参加生日聚会的人数。但在此场景下,母亲需要知道准确的人数才能为孩子准备适量的食物,因此"一些"并不满足认知效果的要求。因此母亲才会继续追问,需求一个精确的数字。随后女儿回答10个。

例6

女儿:有一些朋友要来参加我的生日聚会。

母亲:给一个准确的数字。

女儿:十个。

相关推荐
格林威4 小时前
工业相机 SDK 在 Docker 容器中的部署与权限配置(含 USB/GigE)
开发语言·人工智能·数码相机·计算机视觉·docker·容器·工业相机
SkyXZ~4 小时前
从零开始的双臂具身VLA起源及现阶段发展综述
人工智能·机械臂·具身智能·vla·openvla·双臂具身·具身智能综述
AIData搭子4 小时前
高并发场景下,如何让你的向量语义检索快人一步?
人工智能
江南月4 小时前
让智能体边想边做:从 0 理解 ReActAgent 的工作方式
前端·人工智能
AI攻城狮4 小时前
Vibe Coding 时代:为什么你不应该盲目启用 AI 编码插件
人工智能·云原生·aigc
两万五千个小时4 小时前
Claude Code 源码:Agent 工具 — 多 Agent 的路由与定义机制
人工智能·程序员·架构
江南月4 小时前
让智能体学会自我改进:从 0 理解 ReflectionAgent 的迭代优化
前端·人工智能
沸点小助手4 小时前
「 AI 整活大赛,正式开擂 & 最近一次面试被问麻了吗」沸点获奖名单公示|本周互动话题上新🎊
前端·人工智能·后端
网络工程小王4 小时前
【大模型基础部署】(学习笔记)
人工智能·深度学习·机器学习