19-4 模糊语言学（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一.模糊语言举例

蔬菜与水果、蔬菜与主食之间的界线并不清晰。通常情况下，油菜、白菜等明确归类为蔬菜，苹果、雪梨等明确归类为水果，大米等明确视为主食。表面上看，似乎可以将蔬菜与水果、蔬菜与主食明确区分开来。然而，实际情况并非如此。例如，土豆在湖北、重庆、四川等地常被视为蔬菜，但在广东等地则既可作主食，也可作蔬菜。同样，西红柿既可以被归类为蔬菜，也可以被视为水果。那么，究竟该如何界定蔬菜、水果与主食的范围呢？

"春"、"夏"、"秋"、"冬"除了在天文学上有精确的规定外，在日常用语中它们所表述的时间都是模糊的，它们之间很难找到一条泾渭分明的界线（如春天和夏天的分界线）。如中国人一般把阳历2月3号、4号或5号视为春天的开始，把阳历的5月5号、6号或7号视为春天的结尾。而欧洲人所指的春天是从3月20或3月21开始的，比中国约晚了一个半月。另外，北半球和南半球所指的四季时间则完全相反。

在英语中，专有名词与普通名词之间的边界也是模糊的。英语语法规定，专有名词是指某一特定的人、特定的事和特定的物，其开头用大写表示。而"sun"和"moon"都是世界上独一无二的东西，但是它们的开头多半是用小写。

再如"期中"考试一词，A大学是指5月5号到5月7号，B大学是指5月20号到5月23号。那么"期中"到底是指从几月几号到几月几号呢？由于"期中"并没有一个确定的界线，因此它是模糊的。

树木和树林的界线又再哪里，多于多少棵树算树林，少于则算树木。

总之，一个概念外延的范围是不确定的（外延的定义，16-1：演绎），这种语言学上的现象称为模糊。

二.模糊、含糊和歧义（我把书（张乔，1998）中的概括合并到含糊中）

1.定义

（1）模糊

模糊词汇是指其外延不确定的词汇（或者说其成员范围不确定）。如多高算"高"（180以上算高，还是指181以上算高...），或者多矮算"矮"。"脾气很大"，首先"脾气"的所指或范围该如何确定，其次多大的脾气算是"脾气大"。

（2）含糊

含糊是指具有多种相似语义（义素）的词语或句子。如"好"就包含多个义素，如好（学生）、好（天气）、好（人）等。再比如，"城市"这个词既可以指大城市、也可以指小城市、既可以指古代城市、也可以指现代城市...。总之，就是对所有城市的一种概括名称。

就句子而言，"小王拿了我的自行车"分别可以指例1中的3个义素，而这三个义素相似。例中的三句话分别可对多个不同的场景进行概括，这些场景有相似的义素。如在例2句1中，可以指小王在任何时候任何地方见到小李，而不管这些时间和地点如何，它们都指"小王看见小李"，因此它们有相同的义素；例句2可以指吃早饭、午饭和晚饭；例句3可以指专科、本科、硕士或博士学位等...。还有一个例子是关于"或"的。通过逻辑分解，"我早饭吃了鸡蛋或牛奶"包括有例3中的三个义素。

总之，含糊是指一个词或一句话包含了多个相似语义的现象。

例1

义素1：小王拿了我买的自行车。

义素2：小王拿了我借的自行车。

义素3：小王拿了我爸送我的自行车。

例2

句1：小王看见了小李。

句2：小王吃了什么饭。

句3：小王得到了学位。

例3

义素1：我早饭吃了鸡蛋。

义素2：我早饭吃了牛奶。

义素3：我早饭吃了鸡蛋和牛奶

（3）歧义

歧义指一个词或一句话包含多个词项，且这些词项在语义上无太多关联。如"米，它可以指一种计量单位，也可以指一种粮食。

注：词、词项和义素

词项是词的子集，即词可包含不同的词项。比如词"会"至少包含两个词项，分别为词项"会议"和词项"能"。当一个词的几个词项在意义上是互不相关时，则该词就是同音异义。如词"花"包括词项"花（钱）"和词项"花（朵）"，那么"花"这个词就是同音异义。

而义素是词项的子集，即词项可包含不同的义素。如词项"能"包含义素"能够"、"可能"、"善于"和"懂"等。如果一个词项的几个义素在语义上是关联时，则它被称为多义现象。如词项"能"（词"会"的词项）包括的两个义素，"会说英语"和"会说话"，它们属于语义相关，因此词"会"是多义的。

2.区别

含糊是指词或句子包含多个相近的意义（义素），或者说这些相近意义都可以概括在一个词或句子中。歧义也是指词或句子包含多个意义（词项），但这些意义差别较大。含糊和歧义是指词或句子中其内部意义的关系（相似或不相似），它们与外延无关。而模糊是指在一个意义中，该意义的外延边界并不确定。

三.模糊语义的特点

1.不确定性

它是指在语言中其外延上的不确定性。如上述举例中，存在一些介于蔬菜和水果、介于蔬菜和主食之间的实体，因此它们（蔬菜、水果和主食）之间的边界是模糊的；存在一些，既可能是春天，也可能是夏天的日期，因此四季的外延是模糊的；一些名词既有专有名词的特点，也有普通名词的特点。专有名词和普通名词的外延是模糊的；"期中"所指的时间范围是模糊的；很难"画出"树木与树林之间的明确边界，即可能存在一些既可以称为树木又可称为树林的实体，因此它们的外延也是模糊的。

另外，我们还能在相反关系和相关关系中发现模糊语义的不确定性。相反关系如"冷-热"、"软-硬"、"长-短"、"美-丑"、"饱-饿"、"新-旧"、"早-晚"、"真-假"、"对-错"...，另外还有双音节的相反关系，如"伟大-渺小"、"快乐-疼苦"、"干净-污浊"、"热闹-清净"、"公开-秘密"...，这些关系对之间的边界是无法确定的，比如多少度算冷，多少度算热，它们之间的边界是什么？

相关关系也存在其不确定性，如"童年"、"少年"、"青年"、"中年"、"老年"之间的边界是什么？另外还有"早晨"、"上午"、"中午"、"下午"、"傍晚"，多少点多少分之内算早晨，超过了算上午。多少字以上算长篇小说，少于该字数算中篇小说，还有多少范围内的字算短篇？

2.确定性

模糊语义的不确定性仅仅表现在其边界上，但其中心通常是确定的。如油菜、白菜处于蔬菜的中心位置，因此它们可被明确的归于蔬菜类别。而桃子、香蕉等处于水果的中心，因此它们可被明确的归于水果类别；虽然不能明确确定春天的范围或者说春天与其他季节的边界，但是春天的中心是可以确定的，如4月15号。"China"和"location"分处于专有名词和普通名词的中心，因此它们明确属于专有名词和普通名词，不存在模糊情况。1000万棵树组成的肯定是森林，2棵树组成的是树木，它们都属于各自范畴的中心；另外，-10度的气温肯定属于冷，而45度肯定属于热。

3.变异性

变异性又分为界线的变化和模糊-精确之间的转换。

（1）界线的变化

界线的变化是指模糊语义的外延边界在不同条件（如时间、地点、情景等）下会发生改变。可以分为以下三种变化。

（a）上限确定，下限变化

如气温"热"，可以将世界上最热的温度作为"热"的精确上限（如60度），它在世界上任何地方都是一样的，因此该上限是确定的。而"热"的下限在不同地方则不同，香港处于低纬度地区，而新西兰的纬度相对较高，因此香港对于热的下限一般比新西兰的高。

（b）下限确定，上限变化

如"矮个子"，可以将世界上最矮的人作为"矮"的精确下限，该下限是确定的。但不同人群对矮个子的上限要求不同。如男人矮个子的上限要比女人矮个子的上限高。在NBA，1米8也算是"矮个子"，但这个身高放在一般人中也算高个子。

（c）上下限均不确定

这种变化还可以分为两种情况，一种情况是虽然上下两个界线均不确定，但只有其中一端是变化的。如上个世纪90年代之前，中国人和外国人对"周末"下限的理解基本相同，即大致以周一早晨为准。但对其上限的理解则不相同，外国人认为的周末上限是周五下班的时候，而中国人只有周日一天是周末，因此中国人认为的周末上限是周六下班的时候。

另一种情况是，上下两端都会发生变化。如冬天所指的"黑天"比夏天所指的"黑天"的开始时间要早，且结束时间要晚（即冬天黑天的时间范围覆盖了夏天黑天的时间范围），如图1（a）。这种上下限均向其两极扩展或收缩（如开始时间更早，结束时间更晚；冷天气更冷，热天气更热等等）的形式称为延缩式；还如"黄昏"在夏季和冬季的时长大致相等，但其在冬季的发生时间更早，而在夏季的发生时间更晚。这种在维度上平移的形式称为平移式，如图1（b）。

图1（a）

图1（b）

（2）模糊-精确之间的转换

模糊语义和精确语义之间在一定条件下是可以互相转换的。如"红"是一个模糊词，但它与"卫兵"结合时，"红卫兵"的界线是相对精确的。又如"高血压"作为科学术语时，它是精确词。当将其作为日常用语时，其语义变为模糊。

（3）异变性的原因

（a）条件变化

同一个词在不同条件下可以有不同的界线，甚至可以在模糊-精确之间转换。包括但不限于：

时间条件，如三十多年前的托福考试，570分就能称得上"高分"，但随着时间的推移，考生一年考得比一年好，现在没600分也称不上"高分"。

地点条件，如北半球的"夏天"大约在6、7、8月份，而南半球的夏天正好相反，大约在12、1、2月份。

对象条件，不同学校对"好成绩"和"差成绩"的界定是不同的。相较于普通高中，重点高中对好成绩所要求的分数高，其下限也高。

是否存在硬性规定的场景。颜色在日常生活中是模糊的。但在光谱学中，将6200-7600（单位：埃）人为确定为红、5920-6200（埃）确定为橙、5780-5920（埃）确定为黄、5000-5780（埃）确定为绿、4600-5000（埃）确定为青...。

通常情况下每种条件都不是单独作用，而需将几种条件综合起来考虑。即使同一个地区，不同人群对"高个子"的要求不同，如在北方或南方地区，或男子与女子。这个例子同时考虑了地域（北方或南方）和性别（男子或女子）两种条件。

（b）模糊限制语的使用

模糊限制语的作用在于限制模糊词的模糊程度。一个模糊词包含一定的外延，而该外延可以分为几个不同的部分，当将模糊限制语施加于该模糊词上时，相当于将其外延的某些部分挑选出来（或者说子集）。如"非常高"是模糊限制语"非常"与模糊词"高"的结合，它是指"高"中相对高的那部分外延。或者说，"非常高"是"高"的一个子集，这个子集对于"高"的其他外延部分是更高的。其他模糊限制语包括，接近、将近等。

模糊词界线的变化可以分为三类（上限确定，下限变化；下限确定，上限变化；上下限均不确定）。类似的，模糊限制语也可以分为三类，包括：（a）指外延上限的部分，如非常（高）、相当（高）；（b）指外延下限的部分，如有点（高）。当不加任何模糊限制语时，可认为处于外延的中心区域，如（高）；（c）一些模糊限制语可以与精确词结合，使其模糊化。如"20"是精确词，当加上模糊限制语"大约"时，"大约20"是模糊词。

模糊量词是语义界线不确定的量词，如"许多学生"。它由模糊限制语（许多）和表达式（学生）构成。根据模糊限制语的不同可以分为三类：

第一类只有一个模糊限制语，如许多学生、有些学生、大部分学生等。

第二类是复合式，它由前/后的模糊限制语和数词构成，如二十多个学生、二十个学生左右、将近二十个学生等。

第三类被称为准模糊词，因为它们外延界线的一端是相对精确的，如"多于二十个学生"，它的下限是20个，而上限不确定。

还有一类模糊限制语用于说明它们是从哪个方面作用于模糊词的，如基本上、严格来说、从技术上来说、在某种程度上等等。

（c）语义感染

语义感染，即与其他词结合。如"儿童"和"成人"之间是模糊的，但是加上"票"变为"儿童票"和"成人票"时，其界线就变为精确了。"男人"是精确的，但加上"勇敢的"变为"勇敢的男人"时，其界线就由精确变为模糊了。

总之，不确定性和确定性都不是固定不变的，在一定条件下它们之间会发生变化，从而表现出模糊语义的变异性。

4.模型

模糊词的界线分布主要有两类，包括"正态分布类"和"单调分布类"。模糊词的外延中心确定性高（不确定性低），而外延边缘确定性低（不确定性高）。当外围边缘多于一个方向时，该模糊词属于正态分布类；当外围边缘只有一个方向时，该模糊词属于单调分布类。

"大约（另外还包括，左右和近似等）+数词"是正太分布类。"大约20"的中心是20，而15和25则是它的边缘（分别属于两个方向）。虽然"大约20"和"大约20000"所指的范围不同，即符合"大约20"的数字数量范围不会超过20个（10-30），而符合"大约20000"的数可能有数千个。但它们都同属正态分布类模型，即它们的边缘方向数都为2。春天的外延边缘也有两个方向，一个趋向夏天，一个趋向冬天...。相反关系的模糊词（高-低、宽-窄、长-短）均是单调分布类，如"高"只有一个与"低"邻近的边缘，即它的下限。而不管它的上限是多少，均属于高的中心。

5.无标记和有标记

无标记和有标记是针对相反关系模糊词的一种规律。许多语言都存在这样一种现象，程度高的词（高、宽、长）可以用于表示程度低的词（低、宽、短）。如我们询问高度时，会说"有多高"，而不会用"有多低"；询问宽度时会问"有多宽"...。另外，在构词法中，使用"高度"表示高度，而不会使用"低度"表示高度...。在相反关系中，包含另外一端的称为无标记（高、宽、长），而被包含的称为有标记（低、宽、短）。另外，在表示性别的词中，雄性通常是无标记，而雌性通常是有标记的。如dog既可指公狗，也可泛指狗。而bitch只能指母狗。造成这种现象的原因可能是无标记的词的显著性更高，如"大"物体与"小"物体相比，大的物体总是更显著，更容易吸引人的注意和造成印象。因此它们也更容易成为无标记。

四.模糊词的解释

模糊词的解释有两种，一种是使用模糊理论，另外一种是使用关联理论（19-23：语用学）（在一些书中称为适用性理论）

1.模糊理论

集合是现代数学的基本理论，它表示一个包含某些属性的所有对象的全体。如14-35周岁的所有人组成了一个称为"青年"的集合。在集合论中，当某个人属于这个集合时，使用1表示；当这个人不属于这个集合时，使用0表示。但正如模糊词理论所述，因为概念的外延边界是模糊的，所以很多东西不是集合论所解释的那样，非0即1。如36岁，可能有些人（某些条件）觉得属于青年，有些人觉得不属于，又或者有些人觉得一定程度属于而一定程度不属于。所以36岁不是一定属于"非青年"，也不是一定属于"青年"，而是处于某个不确定状态。基于此，可以使用模糊理论来表示模糊语言。在集合论中使用0或1两个数表示某一对象是否属于该集合，而在模糊理论中使用0-1的数值范围表示对象是否属于该集合的所属程度。0表示集合外部的外延中心，1表示集合内部的外延中心，而0到1的中间数值范围表示外延边缘。当越接近1时表示个体越可能属于该集合，越接近0时表示越不可能属于该集合。这些表示所属程度的数值称为隶属度。

使用一个例子进行说明，一个数字大小判断任务需要让参与者指出1到10十个数字那些数字属于大，那些数字属于小。当数字越大时，该数属于"大"的隶属度就越高，反之则越低；当数字越小时，该数属于"小"的隶属度就越高，反之则越低。可以将大和小的隶属度表示如例4，其中"/"并不是表示除法，而是表示左侧的隶属度对应右侧数字。如在"大"这个模糊集中，"0.8/9"表示9属于"大"的隶属度为0.8，" 0/4"表示4属于"大"的隶属度为0；而在"小"这个模糊集中，"0.2/5"表示5属于"小"的隶属度为0.2；"+"也不是表示加法，而是把这些元素连接起来，表示同一模糊集（又称隶属函数）。

例4

大= 1/10 + 0.8/9 + 0.6/8 + 0.4/7 + 0.2/6 + 0.1/5 + 0/4 + 0/3+ 0/2 + 0/1 （大模糊集）

小= 1/1 + 0.8/2 + 0.6/3 + 0.4/4 + 0.2/5 + 0.1/6 + 0/7 + 0/8 + 0/9 + 0/10 （小模糊集）

那么这些隶属度如何确定呢？如果有100个参与者参与这项数字大小判断任务，100个人投票7在1-10中是否属于"大"，其中有40个人表示属于，那么7属于大的隶属度为40/100=0.4。

2.关联理论

（1）关联理论与模糊性

关联理论是如何解释模糊性呢？下面使用一个例子说明（例5）。关联理论认为，人类的认知具有最大关联性，即获得最大认知效果的同时付出最小的推理努力（Sperber和Wilson，2002）。在下面给出的三种信息中，虽然（a）所付出的认知努力最小，但是它的信息过于笼统而不可取。（c）提供了较为精确的信息，在认知效果上占优。但是它需要付出较大的认知努力。（b）则刚刚好，信息既不会过分笼统，也无需付出较大认知努力，因此达到最大关联。

例5

假设小王是一家私家侦探的雇员，他需要在一个繁忙机场的接机大厅里辨认一个人，公司给他提供的信息可能是如下三种形式中的一种：

（a）亚洲人，女性。

（b）日本人，女性、矮个子、比较胖、大约20岁。

（c）从东京来的日本人，女性，个子1米57，体重113斤，年龄19岁8个月。

三种信息的语境效果分析

人种信息：（a）所述的"亚洲人"过于笼统，（c）所述的"东京来的日本人"有点多余，而（b）所述的"日本人"更为可取。

性别信息：（a）、（b）、（c）所述信息相同。

身高信息：（a）缺乏这方面的信息，（c）所述的"1米57"有点多余，而（b）的"矮个子"更可取。

体重信息：（a）缺乏这方面的信息，（c）所述的"113斤"有点多余，而（b）的"比较胖"更可取。

年龄信息：（a）缺乏这方面的信息，（c）所述的"19岁8个月"有点多余，而（b）的"大约20岁"更可取。

Sperber与Wilson（2002）的另一个例子是当一个陌生人在街上向你问路时，如果时间是11点58分，你完全可以回答12点。首先，12点和11点58分几乎是没有区别的（对听话者来说差不多），因此它们具有相同的认知效果，而理解"12点"所需的认知努力要比理解"12点58分"的认知努力少。因此，根据关联理论的最大关联，回答12点最为合适。类似的还有以10块钱表示9.99元、用1米8表示1米78等。

（2）模糊or精确

关联理论是关于认知的语用理论，认知效果及关联性与语用环境（场景）有关，即用语所要求的模糊程度或精确程度需要结合具体场景分析。在例6中，女儿一开始使用"一些"表示参加生日聚会的人数。但在此场景下，母亲需要知道准确的人数才能为孩子准备适量的食物，因此"一些"并不满足认知效果的要求。因此母亲才会继续追问，需求一个精确的数字。随后女儿回答10个。

例6

女儿：有一些朋友要来参加我的生日聚会。

母亲：给一个准确的数字。

女儿：十个。