《智能的理论》全书转至目录****
不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。
一.归纳的定义(陈波,2020;彭漪涟,2017)
按照逻辑学的定义,从个别的、特殊的知识概括出一般性原理的方法,就是归纳推理。换句话说,人们把已观察到的对象的认识推广到尚未观察过的对象上。如例1,当观察到不同的天鹅(个别)是白的时候,可以总结出所有天鹅(一般)都是白的。
例1
个别知识:
观察到的天鹅1是白的,
观察到的天鹅2是白的,
观察到的天鹅3是白的,
...
观察到的天鹅n是白的。
一般知识:
所以,所有天鹅都是白的。
根据观察的范围,可以将归纳分为完全归纳和不完全归纳。完全归纳的观察对象是整个范畴,如例2中北京、上海、天津和重庆概括了我国所有的直辖市,对这四个城市作出的归纳就是对我国直辖市作出的完全归纳。不完全归纳的观察对象仅为范畴内的一部分,如例2就是不完全归纳,因为没有人可以观察从古至今世界范围内所有的天鹅。
例2
北京的人口超过1000万,
上海的人口超过1000万,
天津的人口超过1000万,
重庆的人口超过1000万。
所以,我国直辖市的人口都是超过1000万的城市。
完全归纳和不完全归纳相比,由于前者穷尽了整个范畴,因此结论是保真的。不完全归纳并不保真,其范畴成员不能被我们完全观察,比如观察到n个天鹅都是白色的,不代表第n+1的天鹅就是白色的(人们进入澳洲后才发现存在黑天鹅)。因为无法观察到范畴的所有成员,就不可能保证归纳结论为真。在生活中,我们大部分的归纳推理都是不完全归纳。
一个问题就是,如何提高不完全观察的准确率呢?科学归纳法是一种较为常用的不完全归纳推理。这种方法并不单纯的进行观察,而是进一步的分析所考察对象具有(或不具有)某种属性的原因。如例3,通过发现现象的因果关系,能极大的提高归纳正确率。
例3
意大利那不勒斯附近有个石灰岩洞,人们带牛马等高大牲畜通过岩洞从未发生问题,但狗、猫、鼠等小动物走进洞里就倒地死亡。人们通过进一步的研究得知,小动物之所以死亡,是因为头部接近地面。头部靠近地面之所以会死,是因为地面附近沉积大量二氧化碳,缺乏氧气。
个别知识:
小动物1进入岩洞死亡,
小动物1进入岩洞死亡,
小动物1进入岩洞死亡,
...
小动物1进入岩洞死亡。
因果关系:
这些小动物进入岩洞后死亡的原因是,它们的头部接近地面,并且岩洞地面含有大量二氧化碳而缺少氧气。
一般知识:
所以,小动物进入岩洞后死亡。
二.三种逻辑之间的区别(陈波,2020;彭漪涟,2017)
演绎、类比和归纳是推理的三种不同形式,这三种推理概括了所有推理方式。演绎是从一般知识到个别知识,如"所有植物都需要雨露阳光",而"向日葵是植物",所以"向日葵需要雨露阳光"。类比是个别知识到个别知识,或一般知识到一般知识。归纳推理是个别知识到一般知识。因此除了演绎推理是保真的,类比和归纳均不能保证结论的正确性。
要注意的是,有一类推理,它看上去是类比推理,其实可能是归纳推理。从"人需要食物"推出"小狗需要食物",如果这个推理是依据"人"和"动物"之间的共同特征(如会自主运动、有手有脚、有嘴巴...),那么它就是类比推理,如例4。如果是依据它们之间的共同类别"生物",那么它就是归纳推理,其推理路径是包含一个归纳推理和一个演绎推理,如例5。这种例子在下面会大量遇到,要注意区分。另外一个要注意的地方是,归纳可以分为广义归纳和狭义归纳两种,狭义归纳即"个别知识到一般知识"推理,而广义归纳包含狭义归纳和类比两种。本书中所指的归纳均是狭义归纳。
例4
类比推理
前提
人需要食物。
结论
小狗需要食物。
例5
归纳推理
前提
人需要食物。
结论
动物需要食物。
演绎推理
前提
动物需要食物,
小狗是动物。
结论
小狗需要食物。
三.归纳的心理学模型
1.类别标签模型
在Gelman等人(Gelman和Markman,1987)的一个实验中,每次让儿童看两幅动物图片:一个给定动物,另一个在外表上与给定动物相似或不相似的动物,且每个动物都有一个标签名称以示其类别。在不相似的动物中,有一半与给定动物的类别相同(相同标签名称)。比起外表上相似但属于不同类别的动物,3岁儿童更可能在外表不相似但属于同一类别的动物间做出属性归纳。如给定动物拥有"呼吸空气"的属性,那么"标签相同但外表不同"的动物比起"标签不同但外表相同"的更可能拥有这一属性。Gelman(Gelman,Coley和Gottfried,1994)已经证明了幼儿在归纳中将基本水平类别作为指导。比如,2岁零6个月的儿童会将持久的属性(如某儿童身体里长有脾)从一个客体投射到另一个同类客体上,不管它们在知觉形象上是否存在差异。
2.相似性覆盖模型
相似性覆盖模型是Osherson等人(Osherson,Smith和Wilkie等人,1990)提出的归纳推理模型。理论模型的两个基本要素是"相似性"和"覆盖"。相似性是指前提和结论类别之间的特征重叠程度。覆盖指的是各个前提的覆盖范围与结论类别之间的特征重叠程度。以例6(a)对相似性作出说明:推理A中的知更鸟和推理B中的鸵鸟是两种典型性程度不同的鸟类(更知鸟比鸵鸟更接近鸟的原型)。幼儿在进行归纳推理时认为A是正确推理的强度高于B的(A>B)。这是因为幼儿认为知更鸟比鸵鸟更像鸟。以例(b)对覆盖作出说明:归纳推理A中的前提牛和马的差异性很小,因而在哺乳动物中的覆盖面积很小,其代表性就不强;而归纳推理B中的前提牛和兔子之间的差异性很大,因而在哺乳动物中的覆盖面积很大,其代表性就强。因此幼儿在进行归纳推理时,A判断为正确的强度大于B(A>B)。
例6
(a) A:前提:知更鸟有属性P;结论:所有鸟有属性P。
B:前提:鸵鸟有属性P; 结论:所有鸟有属性P。
(b) A:前提:牛有属性P,马有属性P;结论:哺乳动物有属性P。
B:前提:牛有属性P,兔子有属性P;结论:哺乳动物有属性P。
3.基于结构的归纳模型
基于结构的归纳模型有如下3个具体假设(魏勇刚和李红,2006):
(a)当增加的前提主项与结论以及其它前提一致时就会出现单调性效应(结论强度随着前提主项数目的增加而增强),如例7(a),与B相比,A中所增加的前提主项"麻雀"和结论主项及另以前提(麻雀)属于同一个类别(鸟),具有一致性,因而出现单调性效应(A>B);
(b)当增加的前提主项与其它前提主项不一致时(即使与结论主项相一致的情况下),则会出现非单调性效应(结论强度随着前提主项数目的增加而减弱)。如例(b),与B相比,A增加的主项"兔子"的类别与结论及其他前提的不一致,因而出现了非单调性效应(A<B);
(c)特征一致性,即当前提主项共享某些显著特征时,如果结论主项也包含该特征,结论强度就会越强,反之则越弱。这个假设得到如下实验的支撑。如例(c),A中的前提主项"狗"属于由前提"知更鸟"、"老鹰"和结论"蝙蝠"所构成的类别"动物"。而B中的前提"飞机"不属于该"动物"类别。如果按照相似性覆盖模型的说法,A的结论强度应该大于B的结论强度。但是他们的研究结果却与此相反。B的结论强度大于A的,这是因为"知更鸟"、"老鹰"、"飞机"和"蝙蝠"共享了特征"飞行"。
例7
(a)A:前提:知更鸟有特征P,麻雀有特征P;结论:海鸥有特征P。
B:前提:知更鸟有特征P;结论:海鸥有特征P。
(b)A:前提:知更鸟有特征P,兔子有特征P;结论:海鸥有特征P。
B:前提:知更鸟有特征P;结论:海鸥有特征P。
(c)A:前提:知更鸟有特征P,老鹰有特征P,狗有特征P;结论:蝙蝠有特征P。
B:前提:知更鸟有特征P,老鹰有特征P,飞机有特征P;结论:蝙蝠有特征P。
4.归纳推理心理效应
归纳推理心理效应指的是归纳论断中各种因素对对结论强度的影响。根据影响因素的不同,可分为类别效应、属性效应。
(1)类别效应
类别效应是指人们愿意使用类别信息对新的需要推论的类别的属性做预测(Gelman和Markman,1986)。例如,某人发现住在她家附近树上的麻雀喜爱吃某一新品种的鸟食,那么她就可能推测不止她家附近这棵树上的麻雀爱吃这类鸟食,可能所有的麻雀都爱吃,甚至有可能所有的鸟都爱吃这类食品。该效应又包括样本大小效应、前提多样性、前提典型性效应和结论(与前提交互)效应四种。
(a)样本大小效应
样本大小效应指的是前提的数量越多,对结论强度的影响越强。Nisbett 等人(Nisbett,Krantz和Jepson,1983)请被试对一个假想的与世隔绝的孤岛上的人进行归纳推理。实验中前被试被告知已经发现了1个、3个或20个Barrato人是肥胖的(前提中的人名不同),要求他回答全体Barrato人都是肥胖的可能性(结论)。结果发现,前提样本容量(即人数)越大会导致越强的归纳判断。Osherson等人(Osherson,Smith和Wilkie,1990)将这种"前提项目数量越多,归纳力度就越强"的关系称为前提单调性。另外,在Lopez 等(Lopez,Gelman和Gutheil等人,1992)的研究中,5 岁儿童并没有发现前提单调性,而9岁的有。
(b)前提多样性效应
所谓的多余性,即相似性覆盖模型中所指的覆盖。有充分证据显示前提多样性(差异性)对归纳力度有很大的影响。也就是说,存在差异的多个前提项目结合在一起时会造成很强的推理。这种现象被称为前提多样性效应。例如。在推理全世界的人是否都有X基因时,前提主项是"美国人"和"中国人"的归纳推理力度强于前提类别是"日本人"和"中国人"。因为"美国人"和"中国人"的不同点更多,多样性更大(Heit,Hahn和Feeney,2005)。对于归纳推理的发展,研究者发现6岁儿童不会利用多样性信息作出一般性的推论,即没有前提多样性效应。Carey (1985)认为这是因为6岁儿童还没有充分发展出概念系统。他认为,成人和儿童对于归纳推理方面的差别主要在于知识经验方面,而非加工过程。
(c)前提典型性效应
所谓典型性,即相似性覆盖模型中所指的相似性。
(d)结论(与前提交互)效应
Nisbett 等人(Nisbett,Krantz和Jepson,1983)的研究认为相对宽阔的结论类别(即相对于前提类别,结论的类别更抽象更上位的)将导致更弱的推理,而相对宽阔的前提类别却导致更强的推理(相对于结论类别)。所以,结论主项对归纳的结论强度也是有影响的,但这种影响通常与前提主项比较而产生的。
(2)属性效应
属性效应是指属性(如"知更鸟有特征P"中的"特征P"就是属性)对推理的影响。属性效应包括属性的稳定性、属性中心度和项目间属性相似性的交互作用三种。
(a)属性稳定性
属性稳定性也称属性范围,意指该类别中含该属性的成员比例。研究发现,被试有把握倾向于将稳定性高的属性推论到同一类别的所有成员中,而在推论稳定性差的属性时把握性较差。比如,被试很难只根据一个Barrato人长得很胖就推论所有Barrato人也长得肥胖。因为"长得肥胖"这一属性的稳定性很差,它是个体性特点。但当让被试对皮肤颜色这一属性加以推论时,被试只需知道一个Barrato人的肤色就能有把握地推论所有Barrato人都有此肤色,因为肤色是稳定性高的属性(Nisbett,Krantz和Jepson,1983)。
(d)属性中心性
属性中心性(Carey,1985)指在一个概念中,所有属性的作用并不是均等的,而是表现出不同的重要性。Hadjichristidis等人(Hadjichristidis,Sloman和Stevenson,2004)在研究中发现,属性的中心性程度对归纳推理有重要影响。在进行归纳时,人们倾向于将中心性高的属性推论到同一类别的所有成员,而中心性低的属性时把握性较差,研究者将该现象称为归纳推理的"属性中心性效应"。如,二年级儿童更易将动物的内部特征(如, 有脾)而不是功能特征(如,能骑)概括到其他动物身上,原因在于对于动物而言,"有脾"比"能骑"更具有中心性。
(3)交互作用
交互作用指的是影响归纳推理力度的因素并非单独起作用,因素间往往存在交互影响,这种影响可能是积极的也可能是消极的。例如,对于类别和属性,Heit和Rubinstein(1994)所做的一个研究能很好地说明属性与项目之间的交互作用,如例8。被试的任务是比较A和B哪个更有可能成立,以及比较C和D哪个更有可能成立。对于第一个问题,被试认为A的结论强度比B的更强。这是由于,人们在对"肝脏有两个腔"这类种生理进行推理时倾向于在有类别关系(生物学分类相同)的动物间做出推理。小鸡和老鹰同属于鸟类,所以被试会有把握地将小鸡具有的解剖属性(肝脏有两个腔)推论到老鹰身上。而老虎和老鹰的种类差距很大,因此它们可能在许多解剖属性上不同。对于第二个问题,D的比C更强。这是因为,对"喜欢在夜间捕食"这种行为属性进行推理时被试则倾向于在生态关系(生活环境相同习性相似)的动物间做出推理。尽管老虎和老鹰在生理解剖上有许多差异,但它们都是捕猎者,在捕食行为却较为相似。在这方面,老虎比小鸡更像老鹰。所以被试更可能将老虎的捕食行为(喜欢在晚上捕食)推论到老鹰身上。
例8
A:前提:小鸡的肝脏有两个腔; 结论:老鹰的肝脏有两个腔。
B:前提:老虎的肝脏有两个腔; 结论:老鹰的肝脏有两个腔。
C:前提:小鸡喜欢在晚上捕食; 结论:老鹰喜欢在晚上捕食。
D:前提:老虎喜欢在晚上捕食; 结论:老鹰喜欢在晚上捕食。
5.基于因果关系的归纳模型
因果模型(Crisp和Feeney,2009)认为,特征间的因果知识在归纳推理中发挥重要作用。在推理"X类动物是否会飞"时,前提主项具有特征"有翅膀"的结论强度比具有特征"会生蛋"的更强。因为"有翅膀"和"会飞"两个特征之间存在一定程度的因果关系,其归纳推理的强度更强。
对于儿童早期归纳推理的机制问题,一些研究者认为儿童早期的归纳推理是基于知觉相似性(Fisher,2010),而另一些研究者则认为儿童早期的归纳推理主要是基于概念知识的(Gelman,2009)。也有一些心理学家主张,最强有力的归纳推理源于靶刺激和目标刺激之间的因果关系(Rehder和Burnett,2005)。
在Gopnik和Sobel(2000)的研究中,其实验包含四个物体,一个作为靶刺激,另外三个作为测试刺激。实验者先呈现靶物体,告诉儿童这个物体叫做"blicket"(相当于类别),然后实验者使这个靶物体分别接触三个特制的测试刺激上方(直接的因果关系),其中一个测试刺激在接触靶刺激后会发光并放音乐。然后实验者问儿童,哪个物体也叫"blicket"。实验分两种条件:无冲突条件和冲突条件。在无冲突条件下,三个测试物体在知觉上均与靶物体不同(形状不同,或者颜色不同,或者形状和颜色都不同)。在冲突条件下,有一个测试物体与靶物体在外型上完全相同,但这个测试物体在接触靶刺激后不会发光并放音乐;另外两个测试物体与靶物体在知觉上不同,其中有一个在接触靶刺激后会发光并放音乐。实验结果显示,在无冲突的情况下,2.5岁、3岁和4岁均主要基于因果关系拓展名称。在冲突的条件下,2.5岁儿童主要基于知觉线索(即认为知觉相同则名相同),而3岁和4岁儿童基于因果关系和基于知觉线索的名称拓展则没有显著差异。Nazzi和Gopnik(2000)采用与Gopnik和Sobel(2000)一样的研究范式,在他们的研究中,当知觉关系与因果关系存在冲突时,3.5岁儿童更多的基于知觉线索进行归纳,而4.5岁儿童更多的基于因果关系。
将靶物体放在测试刺激上方(而不是直接接触)(间接的因果关系),使测试刺激发光并放音乐。Gopnik和Sobel(2000)发现,在无冲突的情况下,2.5岁、3岁和4 岁儿童,无法基于因果关系进行名称拓展。而在冲突的情况下,2.5岁、3岁和4岁儿童均主要基于知觉线索进行名称拓展。
6.信息加工模型
归纳推理可以基于知觉相似性和基于概念两种。
归纳推理基于知觉相似性的观点认为,在归纳时个体是这样的:A1有属性S,A2有属性S,A3有属性S。因为A1、A2、A3看起来相似,所以和它们(A1、A2、A3)相似的东西都有属性S。比如,当个体看到白狗、黑狗和花狗都能饮水,会得出这样的归纳结果:和白狗、黑狗和花狗看起来相似的东西都能饮水。
归纳推理基于概念的观点认为,在归纳时个体是这样的:A1有属性S,A2有属性S,A3有属性S。因为A1、A2、A3属于类别A,所以和A同类的东西都有属性S。当个体看到白狗、黑狗和花狗都能饮水,会得出这样的归纳结果:狗(或者动物)能饮水。
在认知心理学中,信息加工方式包括"自下而上的加工"和"自上而下的加工",二者不可或缺。而在归纳推理中,如果个体是基于概念知识完成的,则个体使用自上而下的加工过程,他依据的是头脑中已经形成的概念。如果个体是基于知觉相似性信息完成的,则个体在推理中使用自下而上的加工过程,个体把握的是客体之间的知觉相似性。

图1
四.归纳推理和演绎推理的关系(雷明,陈明慧和赵维燕等人,2018)
归纳推理和演绎推理是否属于同一认知加工过程,这是推理心理学研究领域的热点问题。单过程理论和双过程理论是阐述这一问题的主要理论类型。
1.单过程理论
单过程理论认为归纳推理和演绎推理实际上共享相同的思维过程,二者在认知过程上并无本质区别。标准转化模型、心理模型以及贝叶斯模型等均支持单过程理论。
标准转化模型认为,归纳推理和演绎推理的唯一不同在于判断标准,而并无认知过程的差异。无论是对演绎有效性还是对归纳强度的评估,都是命题在一个单一连续体上的位置函数(Rips,2001)。这个连续体的一端为"毫无价值",即给出的信息(前提)完全无法为结论提供任何支持,如前提为"一只青蛙一张嘴",结论为"操场上有两个人",在此命题中前提对于判断结论是否为真毫无价值;而连续体的另一端为"深信不疑",即若所给前提为真,结论必然为真,如前提"5<6,6<10"为真,那么结论"5<10"也必然为真。其他命题如"明天不是晴天(前提),那么明天会下雨(结论)"则处于这两个极端间。基于此,该理论认为可以通过一个命题在这个连续体上所处的位置来判断该命题的可信度,演绎推理的可信度比归纳推理的可信度高。同时该模型还认为,演绎推理比归纳推理有着更严格的判断标准。如图所示,标准一表示归纳的标准,大于该标准的归纳推理可信。标准二表示演绎推理的标准,大于该标准的演绎推理有效。一些命题可被判断为可信程度强,但并无足够证据把它们判断为演绎有效,此类推理可以看作归纳推理;而演绎有效的命题则一定是可信程度强的命题,此类推理可以看作演绎推理,因此有些研究者主张把演绎有效命题看作是归纳命题的一种特殊情况(Rotello和Heit,2009)。

图2
Johnson-Laird(1994)提出的心理模型理论主要应用于解释演绎推理,但也同样适用于归纳推理。依照这一理论,在推理过程中,推理者首先基于对前提的理解和自己的一般性知识,构建一个或多个关于前提的心理模型,这些心理模型往往暗示着某些结论,推理者通过寻找模型的反例来检验这些结论的有效性(Schaeken,Johnson-laird和D' Ydewalle,1996),如根据前提"A<C,B<C,D=B,E=C",判断结论"D<E"是否正确。假设前提必然为真,在推理D与E之间的关系时,推理者可能产生"A<B=D<C=E"、"B=D<A<C=E"等多个心理模型,当这些模型中并未找到关于"D<E"的反例时,结论有效,因此为演绎推理。心理模型理论认为:当前提必然为真,且推理出的结论也为真时,这种推理为演绎推理;而当前提为真,但无法判定推理结论的真假时,这种推理过程为归纳推理。
2.双过程理论
双过程理论支持推理有两个潜在机制的观点,如双重加工模型(Evans和Stanovich,2013),这个过程又包含启发式过程和分析式过程。
其中启发式过程依赖直觉,速度较快,而分析式过程依赖工作记忆,速度较慢,同时也更谨慎(Hawkins,Hayes和Heit,2016)。如前提为"所有植物都需要水,玫瑰需要水",结论为"玫瑰是植物",在判断结论真假时,如果仅依赖启发过程则应很快得出结论为真,因为这个结论与常识相符;而倾向将结论判定为假的被试可能经过更谨慎的分析过程,因为仅根据前提无法直接推理出结论。双过程理论认为进行归纳推理和演绎推理时均需要经历分析式过程和启发式过程,但二种推理受到分析和启发的影响程度并不相同(Evans,2012)。进行归纳推理时,更多地受快速启发式过程的影响;与此相反,演绎推理需要进行逻辑判断,因此更多地受到分析过程的影响(Hahn,Harri和Oaksford,2013)。