9-23 动作意图理解(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一.动作意图

1.动作与意图

意图是行为的目标和原因。动作往往与目标或意图联系起来,当识别了动作时其目标也可能随之被识别。人们识别动作的行为其目的并不仅仅是把握某个动作的特征,而是为了满足与人交往,适应环境等更复杂的社会交往需要。因此,对动作的准确把握取决于对动作所传达的含义的理解(Aglioti,CesariRomaniUrgesi,2008)。 当然,当知道某人具有某种意图时,也可以推测出他将会做出什么动作。比如一个人想喝水解渴,那么他就会做出拿起水杯并往嘴边移动的动作。另外,从进化的角度来看,在危险场景中准确识别对自己具有威胁的行为对其生存及发展具有重要的适应性作用。因此,对动作隐含的意图进行研究就显得尤为重要(康廷虎薛西,2018)。

2.意图动作的界定(赵翥,2018)

意图动作也即具有指向某个意图的动作,以下简称动作。动作是一个具有广泛含义的概念,体现形式多种多样。当想要对动作进行界定时,这种形式和内涵的丰富多样使得界定动作变得非常困难。

首先,需要区分动作和非动作,在最简单的方法是,动作的主体是否动物,并且作用在其他主体上。例如,当个体要打开门时,将自己的手臂伸展出去,扭动把手,然后推开门。当然,动作也不一定要直接接触。例如,在公路上,交警可以对着司机伸出手掌,然后司机就会停下车辆。这里的动作并不直接作用于动作的接受者(司机或车)。

当动作的发出者和接收者均是同一主体,例如个体使用左手挠左脚时,这种情况下显然存在动作。为此,我们需要区分动作的主体和效应器。身体可以运动的部分,从手、腿,到腰、颈,再到颌,声道,以及眼睛均属于效应器。当个体伸手开门时,动作的主体就是动作的执行者,但是动作的效应器是让动作得以实现的生物体结构,这个例子中主要由手臂、手掌和手指来承载(而不是使用头)。显然,动作可以是主体对主体执行,但不能是动作的效应器对本身执行的。即不能用自己的左手挠左手本身。

但是当主体开始跳广播体操时,情况又开始变得复杂起来。例如,抬起左腿应该是一个动作,但是这个动作却没有与其他主体产生互动。在另一种情况下,当一个昏迷的植物人被固定在门前,旁边的医生握着他的手用和推门完全一样的方式将门推开,此时植物人是否做出了动作呢。虽然与门产生了互动,但直觉上似乎植物人并没有做出动作。它可以类比为大部分人不能如同做出向超人做出"伸出手臂,起飞"的动作。昏迷的植物人从主体的资格上,就不具有做出这一动作的能力。在同样的情况下,将植物人替换为一个蜡像,也可以实现同样的结果。之所以昏迷的植物人手臂推开门不能算是动作,是因为效应器的整个移动过程中不存在目标和意图,这个移动过程必须被限制在意图的范围之内才称得上动作。正如我在键盘上敲打"动作"这个词时,我的意图是在键盘上敲击出"dongzuo",我每次敲击都有一个确定的子意图(某个字母),并按照一定的步骤去组织和执行自己的动作,最终实现意图。在跳广播体操时,抬起腿的时候有着一个抬起腿的心理状态(意图)。

周围世界在不断的变化之中,当个体为了改变环境做出动作时,这种改变是环境自身的变化,或是因动作而起的呢?我们首先考虑,当两个人掰手腕比赛时,双方的意图都是将对方的手按倒在自己右侧的桌面上。但最后其中有一方终究会发现自己的手倒向了另一侧桌面(自己的左侧)。在这种条件下,主体所产生的算动作么?另一种情况以开门为例,主体伸出手臂,在准备扭动把手的时候,一阵大风吹来,把门吹开了。这时环境的最终状态与动作意图所要实现的最终状态一致,但外界环境中发生的结果却不是由动作执行者引发的。以上两种情况显示出,动作结果的不仅仅依靠结果来判断,动作的执行过程中动作、意图与"想要实现"的结果(而不一定是真实结果)之间,存在着更为紧密和直接的联系。

总的来说,动作是个体借助效应器,具有一定意图的,且朝目标(结果不一定是目标)发生的。

3.层次

Bonche-kDokow和Kaminka(2014)认为"意图性动作"这一概念中有三个关键词:动作、意图、最终状态。其中,"动作"表示行为,"最终状态"指的是动作序列导致了怎样的最终结果;"意图"即期望的最终状态的达成,它通过动作实现。该理论阐明了动作、意图、最终状态之间是密不可分的。

Kilner等人(Kilner,FristonFrith,2007;Kilner,2011)认为,动作可以在四个层次上进行描述,因此动作理解也相应被分成四个层次,分别为:

(1)视觉运动层次

视觉运动层次位于动作理解的最底层,主要加工动作的轨迹、运动速度等运动学信息,对应脑功能区主要有外纹状皮层、后颞下沟、颞上沟等。它们对视觉运动信号进行识别处理,负责对动作进行初始解码。

(2)动作方式层次

动作方式层次不同于运动学层次,它的加工对象是动作的肌肉运动,即"如何进行动作操作",一般也称为"how"层次。Jeannemd等(Jeannerod,Arbib,Rizzolatti和Sakata,1995)认为在脑中存在一种视觉运动转换机制,它将目标物体的视觉特征信息(如尺寸和形状)转换成需要采取的动作方式(捏或握)。该机制的功能脑区主要分布于与视觉系统相邻的运动区域,也包括额叶和顶叶的某些区域。Murata等人(Murata,Fadiga,Fogassi和Gallese等人,1997)也观测到恒河猴F5区所激活的镜像神经元在观看不同的捏、握等手部动作时会激活不同抓握神经元。

(3)动作目标层次

动作方式的加工并不足以达到真正的动作理解, 动作还需要后续的加工, 这就是所谓的目标层次,即动作每个阶段的即时目标,如抓取杯子。另外,同一动作目标可以有不同动作方式,不同的动作方式也即产生不同的运动学参数。例如拿起杯子,我们可以用三个手指捏住杯柄,也可以张开手掌握住杯子,

自从1995年在恒河猴的脑区发现一种在观察动作和执行动作时都会激活的特殊神经元------镜像神经元之后。Rizzolatti和Sinigaglia(2010)提出,个体在观看动作时,会激活额顶区域中对应动作方式的镜像神经元,并通过"镜像直接匹配"机制对动作目标直接编码,从而对意图直接理解。换句话说,当个体知道它所执行的运动行为的结果,所以当另一个个体的运动行为触发了与执行该行为相同的神经元集合时,它就能识别出该运动行为的目标。该镜像直接匹配机制具有快速、不调用注意资源等特点,因此镜像神经元也被赋予了理解动作目标的功能。

(4)动作意图层次

动作意图层次即执行整个行为动作的意图、原因。当我们对动作进行理解时,虽然动作即时目标相同,但动作者背后的动机、意图可能千差万别,如抓取杯子可能是为了喝水也可能是为了清洗。如何确定其动作动机、信念和意图,就需要在理解动作即时目标的基础上,综合情景、经验等各方面信息进行推理,这也会涉及更高层次的认知功能。

Fogassi等人(Fogassi,Ferrari,Gesierich和Rozzi等人,2005)让猴子观察一个将食物放进嘴里的动作和将食物放置到一个旁边的盒子,发现猴子的镜像神经元能够对这两类动作做出不同反应。这里的两个动作极其相似,但是神经元层面却产生了不同的激活模式。因此这表明,镜像神经元具有区分动作过程类似但意图不同的动作。

除了观看完整动作能够捕捉到差异,Umiltà(Umiltà,Kohler,Gallese和Fogassi等人,2001)等通过遮挡后半部分动作,对伸手抓取实验范式进行修改。在实验的一开始先检验了镜像神经元系统的激活特性,当猴子观看实验者抓一个物体时,其镜像神经元系统产生了激活;而在实验人员仅仅是假装伸手去抓物体,但实际上并没有目标物体时,猴子的镜像神经元系统并不激活。接下来,实验人员先在桌子上放一个目标物体(如橘子),在猴子看到目标物体后用一个屏障遮挡住目标物体,之后实验人员再进行伸出手臂抓握物体的动作。猴子在观察这种动作时镜像神经元系统产生了激活。同样的,如果猴子知道桌面上没有目标物体,并放置一个屏障,然后实验员伸手去屏障后假装抓物体。这时猴子的镜像神经元系统也不产生激活。据此,研究人员推断镜像神经元系统能够对挡板后真实存在物体和被试假装去抓物体进行区分。

Umiltà等的实验也同样表明,在动作序列不完整的情境下(遮挡前),镜像神经元仍然会对未呈现的动作进行表征,进而对动作目标完成理解。然而,这种由部分到运动链(由多个子运动组成的为了完成某个目的的运动)的选择是如何发生的?多种因素可能参与了这种选择。第一个因素是动作执行的环境,比如在一个餐饮结束后的杂乱餐桌上抓起杯子可能是为了"洗",而一个干净整洁摆满食物的餐桌拿起杯子可能是为了"喝"。第二个因素是物体的类型。通常,抓起食物是为了吃,而对于石头来说当然并非如此。因此,观察到指向食物的运动行为更有可能触发编码抓取来吃动作的神经元,而不是其他。(Fogassi,Ferrari,Gesierich和Rozzi等人,2005)

观察不完整的部分,同时对接下来的发展与结果的预期,也能够在行为层面的主动性注视表现出来。例如,当观察他人拿苹果时,观察者的目光会略微提前于对方的动作而指向对方最终的目标------苹果。主动性注视的预测性受到经验的影响,一项研究让6、8、10个月的婴儿观察成年人用整只手抓物体、精确地拿取物体、握拳接近物体三个动作。结果发现,三组被试在观察成年人用整只手抓物体时都出现了主动性注视,但是只有8个月以上的婴儿才能在观察精确地拿取物体时出现主动性注视。研究人员认为这是因为6个月大的婴儿不具有精确拿取物品的能力。这一结果显示,只有当我们自己具有某种运动表征后,才能用该表征去理解他人的动作。(赵翥和陈巍,2017)

最后,各层次之间并不相互独立,而是一个有机系统。运动学层次从属于动作方式层次,动作方式层次从属于目标层次,目标层次又从属于意图层次;层次越高,对动作的描述也将越抽象。

4.研究范式

已有的动作意图理解的范式主要分为三类,分别对应不同的动作意图测量。

第一类是早期测量动作意图时最常用的范式之一,采用动作图片或影片作为实验材料,测量手部与物体接触的不同方式以及情境因素对动作理解的影响。Iacoboni和他的同事(Iacoboni,Molnar-Szakacs,Gallese和Buccino等人,2005)曾经做过一个测试镜像神经元的实验,实验需要被试观看一些短片并同时观察他们的大脑活动情况。短片的剧照如下图1(a)所示(实验中展示的是短片,此处仅展示短片的剧照),分为三种实验条件,背景对照短片条件(第一排),上下两张图分别展示了"下午茶开始前"短片剧照和"下午茶结束后"短片的剧照(仅展示背景,而无动作);动作对照短片条件(中间一排),上下两张图分别展示了两种不同抓握杯子的手势(仅展示了动作,而无背景);意图短片条件(最后一排),上下两张图分别展示了"喝"意图和"清洗"意图短片的剧照(动作及其背景同时展示)。Iacoboni对比了不同短片的镜像神经元活动情况,发现,意图短片条件的激活情况要比动作对照短片条件的大得多,最大的是喝意图,然后是清洁意图,最后是动作短片(中间一排),如图(b)所示。他分析道,如果镜像神经元对拿起杯子的动作都有反应,那么不论是动作短片还是意图短片,被试大脑的激活量都是一样的。因此,这些镜像神经元不但对动作进行反应,更是对动作的意图进行反应。

对动作意图的识别有助于对后续动作的预测。例如,当识别出喝水的意图后,那么拿杯子接下来的动作是把杯子放到嘴边,然后喝水;如果是清洗意图,那么拿杯子后下一个动作就是到水槽边,然后进行清洗。

图1(a)

图1(b)

第二类,主要是区分合理动作和不合理动作,这种动作意图的理解涉及到工具使用过程。比如,研究者将日常情境中配合人完成动作所必须的工具换成了不合理的工具,比如将切面包的刀换成锯子等,发现N400这个成分在检测不合理动作时波幅更大,而N250则是在合理动作时更大。这种类型的动作理解更多考察的是个体借助工具对于动作意图理解的影响。(Mudrik,Lamy和Deouell,2010)

第三类,根据动作执行者的人数以及互动情况将动作分为私人动作、交际动作和物理动作。被试需要根据呈现的连环画的逻辑关系选择可能的结果。实验中先给被试观看两张呈现先后顺序动作的图片,然后被试要做的是在三张可能的结果中选出最有可能的结局图片(Brunet,Sarfati,Hardy-Baylé和Decety,2000)。相关ERP研究发现左侧顶区在400-600ms之间交际动作的平均波幅显著大于私人动作,同时私人动作的平均波幅显著大于物理动作(王益文,黄亮,徐晟和袁博等人,2012)。

二.识别

在实际识别动作意图的过程中,往往需要使用可直接得到的各类信息(如面孔、肢体动作和背景等),并以此推论行为者动作的意图。

1.意图检测和意图预测

研究者认为意图识别有两个核心过程,分别为意图检测和意图预测。动作意图检测是为了确定意图的存在,这一阶段主要分析观察到的动作序列的每一点(子动作);而意图预测则是为了确定意图内容,这一阶段需要在时间进程上向前推进,从观察到的行为推论行为者的最终目标(Bonchek-Dokow和Kaminka,2014)。

2.肢体线索

包括人的身体轮廓、身体姿势和身体部位都可以作为动作识别的重要线索。人类行为通常与的身体姿势相关联。例如,"拍照"和"弹钢琴"的动作具有非常不同的身体姿势。而与人的姿势信息相比,身体部位可能更多地与行为执行相关(Guo和Lai,2014)。如,在"使用计算机"与"看书"这两个动作中,身体的姿势都比较相似,但手臂的动作却明显不同,使用计算机是朝向外部指向键盘,看书是平举朝向书本。

手势和语言一样,均能够作为表达说话者内心状态的一种交流形式。当人们进行语言交流的同时会做出的一些象征性的手势,这些手势表达的意义与语言本身是相关的,有时候甚至是一致的(马利军和张积家,2011)。Schippers等人(Schippers,Roebroeck,Renken和Nanetti等人,2010)采用了手势交流任务来探讨意图理解的神经基础。在该任务中被试需要用手势将自己看到的词语表达出来,另一位被试需要观看手势并对手势背后的意图进行理解。结果发现被试进行理解的过程中激活了意图理解的相关脑区。一项研究(许小菲,2017)使用图片描述任务对意图理解进行探讨。在该任务中被试需要对图片所描述的内容进行描述,在描述的过程中操纵被试是否使用手势,结果发现使用手势的被试与不使用手势的人相比,能更好的表达图片内容。

另外,许多研究者采用动作发生时伴随的生物指标作为中介。如Jang等人(Jang,Lee,Mallipeddi和Kwak等人,2013)对行为者基于某种任务的动作和无特定任务的动作进行研究时,使用注视点数目、注视时长、瞳孔大小变化、瞳孔大小变化梯度、眨眼变化等眼动指标试图研究行为者的动作意图。

3.动作序列

在真实场景中,动作是具有序列性的,即一个动作接着一个动作的,例如,学生走进书房,打开抽屉,从抽屉中取出书本,关上抽屉。个体对这些事件的心理体验是离散的。因此可以将这个动作序列分为不同的序列状态,如开始状态、中间状态、结束状态。因此,当知道他人的意图时,可以根据有关动作的序列知识和当前的动作状态,推测下一步可能的动作。比如从抽屉取出书后,下一步的动作应该是关上抽屉(Norman和Price,2012)。

4.背景

正如Friedman(1979)所发现的,对场景客体的识别有助于对场景的识别,如识别了菜刀,那么场景将更可能被判断为厨房。场景与动作也有同样的关系。对动作意图的识别,不仅需要依赖于动作本身,可能还需依赖该动作所发生的场景。Ziaeefard和Bergevin(2015)发现,背景识别与动作识别有互相促进的作用。首先,对动作的识别有助于对场景的识别,如看到一个人作出投篮的动作,那么人们更可能将场景判断为篮球场。而且,有些动作可能只在特定的场景出现。一般来说,游泳只在水池中进行,因此识别了游泳的动作其场景更可能被判断为水池。其次,对场景的识别同样有助于对动作和动作意图的识别,如人们分别在公路上或者停车场上驾车时,其动作或动作意图可能是不同的。如果是在停车场上,那么动作者的动作/动作意图可能是停车;如果是在公路上,那么动作者的动作/动作意图可能是开车前往某个目的地。

5.刺激物

身体姿势或动作的识别与行为对象的识别之间存在互相促进的作用(Desai,Ramanan和Fowlkes,2010)。也就是说,对于其中一个的识别可以促进对另外一个的识别。比如,在一场板球比赛中,如果没察觉到板球的存在,那么就很难对动作者的击球行为进行识别。反过来,如果没能对动作者的击球行为进行识别,也很难会注意到尺寸很小的板球。

功能可供性这一概念首先由 Gibson(1977)提出,认为一个操作对象的属性和它提供的功能相对应,或者说,操作对象的属性或特征能够帮助人们做些什么。例如,办公室的座椅表明它可以用来坐着休息;围巾的保温属性说明它可以用来保暖,其厚重属性暗示它可以被折叠以用来靠枕,钥匙是用来开门的,扫把可以用来打扫...。由于这些可供性可以帮助人们达成他们的意图,因此识别物体及其属性有助于对其动作的识别,比如识别出一个人拿着一把扫把,可以推理这个人在扫地。

在动作意图识别中刺激物和场景往往是同时起作用的。比如,在行为者动作特征不变的情况下,如果该动作特征出现在草坪场景中,同时伴随的操作对象为足球,人们倾向于推断行为者的动作特征是为了踢足球做出的;然而,如果该动作发生在羽毛球场内,伴随出现的对象为羽毛球球网,人们可能做出"行为者的动作意图是打羽毛球"的推论。

6.动作执行者

在一些特定场景下,识别动作执行者的身份有助于对动作意图的识别。比如,在足球赛中,裁判和运动员同样在球场上奔跑,但运动员的动作意图是赢得比赛,而裁判的是维持比赛秩序。

7.社会可供性

社会可供性是指由社会实践和规范塑造的社会互动的可能性。例如,在一个有邮政系统的社区中,为写信的人提供信件邮寄服务。这种社会可供性依赖于社会文化的实践。来自一个没有邮政系统的文化,也不知道什么是邮政系统的个体,无法将邮箱视为提供信件的场所;一个动物能够提供进食或被进食、交配或打斗,培养或养育等。当它们参与一项社会互动时,参与性动物的行为必须相互约束相互适应。如在一些哺乳动物中,母亲为婴儿提供了拥抱和舒适接触的可能性。(刘庆明,董达和高奇扬,2022)

8.部分视觉线索构建完整动作表征(赵翥和陈巍,2017)

有时,尽管我们无法获得完整的知觉信息(例如,个体将手伸到桌子下面去关闭电脑时,部分的动作过程被抽屉遮挡了),但这并不影响我们对于他人意图的识别。有研究显示,观察者能够依靠与动作有关的部分视觉线索构建出完整动作表征。研究人员让被试观察对方执行一个举起盒子的动作,盒子从轻到重有三种重量。但是,从手腕到手掌的动作都被遮住了,其第一指背侧骨间肌与小指外展肌都无法在实验中被观察到。被试需要仅仅通过手臂上的肱桡肌来判断对方举起物体的重量。研究发现,被试仅仅依靠手臂就能够对举起物体的重量做出较为准确的估计。进一步分析发现,在观察举起较重盒子的条件下,被试自己的第一指背侧骨间肌的激活也增加了,即被试自己的运动系统补全了被遮挡的这部分动作信息,从而完整地理解了对方举起物体的动作。

个体通过动作部分信息去判断动作的准确性还受到个体经验的影响。另外一项研究使用了三组被试:第一组是篮球运动员,拥有与投篮有关的丰富的运动经验和知觉经验;另一组被试是体育记者,对投篮仅有较为丰富的知觉经验;还有一组被试不熟悉篮球运动。三组被试观察一个罚球投篮的动作并判断是否会进球。篮球运动员和体育记者对罚球准确率的判断均高于对篮球运动不熟悉的被试。但是,篮球运动员仅通过对方身体所传达出的运动学信息就可以对投篮结果做出预测,而体育记者不能做到。因此,个体有关的运动经验和知觉经验对于判断对方动作的结果均起到重要的作用。另外,在体育运动中,使用假动作欺骗防守运动员是一种常见的策略。有丰富经验的篮球运动员,能够判断其他的篮球运动员是真正的投篮还是只是假装投篮(Sebanz和Shiffrar,2009)。

9.执行风格

在社会互动中,通过观察动作的执行风格(例如发音方式),人们能够有效地对他人的情感状态进行评估。这种关于行动和言语的动态特征代表了社会交往的一个基本方面,这被Daniel Stem称之为"活力形态"。例如,根据我们对他人的不同情感态度,我们的抓握可以是"有力的"或"纤弱的",语调可以是"粗鲁的"或"温柔的"。活力形态理论把行动划分为"what""why""how"三个维度,而活力形态则涉及行动的"how"维度。通过对活力形态的感知,能使我们更好地理解他人的内心状态。(刘庆明,董达和高奇扬,2022)

三.发展(郑小蓓,孟祥芝和朱莉琪,2010;陈亚萍和李晓东,2013)

发展心理学致力于探索人类各种能力的起源,试图回答个体何时具有某种能力、其发展轨迹如何等问题。研究发现婴儿早在5个月大时就已经能够根据主体与其目标的关系理解动作了(Woodward,Sommerville,Gerson和Henderson等人,2009)。很多发展心理学家在婴儿中不断进行研究,研究多通过违背预期的方法,当向婴儿呈现与动作原功能相违背的另一动作结果时,婴儿通常会表现出更长的注视时间,说明婴儿对动作存在一定的预期。这些研究表明,人类在婴儿期就已经具备意图推理的能力。Meltzof(1995)的研究表明,当18个月的婴儿看到他人的某个未完成动作后,会推论他人的动作意图并在模仿的时候做出完整的动作,而不是仅仅做出以观察的动作,说明婴儿能够对他人的意图进行预测推理。

那么这种能力究竟是先天就有的,还是经验学习的结果呢?经验论与先天论分别代表了两种观点。

1.经验论

经验论认为,婴儿通过自身动作所获得的经验在理解他人动作意图中起关键性作用。对他人动作的理解首先要站在他人的位置上来模仿性地生成类似的心理状态(Sommerville和Woodward,2005),然后把动作的目标指向性归因于行动主体的意图、愿望和信念。从出生开始,婴儿的动作就受外部目标及想要的信息所影响,因此婴儿自身的动作受意图引导。当婴儿学会在考虑目标状态下如何组织动作后,他就能明白动作所包含的意图,从而了解他人的动作意图。

经验论认为婴儿通过自己与目标物体有关的动作经验来理解他人的动作意图。Sommerville,Woodward和Needham(2005)对此假设进行了检验。该实验以3个月大的婴儿为被试,分为两个阶段:动作任务阶段和习惯化阶段。在动作任务阶段,让婴儿坐在妈妈的腿上,直接面向桌子。桌子的高度在婴儿的胸部左右。一个小玩具熊和一个小球放在桌子上。然后,给婴儿手上戴上手套,这个手套可以把小球或小熊粘起来。通过这个手套婴儿可以轻易地通过刷或击打把玩具拾起来。在婴儿与玩具接触几秒之后,实验者把玩具从手套上移走并将其重新放在婴儿的面前,如此反复进行;在习惯化阶段,婴儿观看一个成人伸手反复抓其中一个玩具(球或小熊,是动作任务阶段的玩具的大号版本)。成人只是抓玩具并不移动它。当婴儿的注视时间下降为其初始水平的一半时,婴儿产生习惯化。测试阶段,将两个玩具的位置互换,然后婴儿观看两个新事件,一个是新目标事件(如习惯化阶段抓的是小球(图2(a)),那么测试阶段抓的是小熊,由于测试阶段的位置互换,伸手抓取的位置不变(图c)),一个是新位置事件(如习惯化阶段抓的是小球(图(a)),那么测试阶段抓的也是小球,由于测试阶段的位置互换,所以抓取小球的位置改变(图d))。将婴儿分为两组,一组是动作任务阶段(有动作经验)在先,习惯化阶段在后;另一组是习惯化阶段(无动作经验)在先,动作任务阶段在后。结果发现,动作任务阶段在先的婴儿,对新目标事件的注意显著高于新位置事件(由于形成了抓取旧目标的动作意图),而观看在先的婴儿对两种事件的注视时间则无显著差异。这说明婴儿都基于目标(旧的)的动作表征能从主动经验中学习并迁移到理解他人动作意图的情境中去。

图2

婴儿自身的动作不仅影响其对他人具体动作意图的理解,也会影响其对更为复杂抽象动作的理解。Mahajan等人(Mahajan,Woodward,Einsenband和Sommerville,2008)以8个月大的婴儿为被试,婴儿面临的任务是通过拉取一块布来获取上面的玩具。由于这个年龄的婴儿用手段-目的解决问题的能力十分有限,所以研究者首先要帮助婴儿学习手段-目的方法解决问题。将婴儿分为主动条件和观察条件两组,在主动条件下,先让婴儿自主解决问题,然后进入训练阶段,即先看成人示范如何拉布获得玩具,然后立即呈现相同的问题给婴儿(如何获得玩具)。结果发现婴儿训练后比训练前用手段-目的方法解决问题的能力明显提高。在习惯化条件下,婴儿仅观看成人抓布获取玩具。在测试阶段,一种情况是成人抓取旧布上的新玩具;另一种情况是成人抓取新布上的旧玩具。结果发现,主动条件下,那些在训练后表现出很好的手段-目的行动的婴儿对新玩具情境的注视时间明显长于对新布情境的注视时间;而在训练后表现出较少的有组织的动作系列的婴儿在两种情境下的注视时间没有差异。习惯化条件下,婴儿只是观看成人利用手段-目的方法成功地解决问题,自己并无实际操作。因此对新布和新玩具情景的反应没有差异。

注:

习惯化:当同一事件重复出现时,婴儿对该事件的注意会越来越少,表现出习惯化的反应。当婴儿习惯化后,会对不同于习惯化的事件表现出视觉注意的增加,当然前提是婴儿探测到这种差异并发现了新刺激。

经验论认为婴儿对他人动作的理解是基于个人的经验及行动主体的意图,而不是事件的属性(Woodward,Sommerville,Gerson和Henderson等人,2009),因此非人类主体执行的动作,婴儿是较难理解的。例如,Meltzof和Moore(1994)进行了一系列婴儿的模仿实验,向18个月的婴儿呈现了成人的一个未完成动作,结果婴儿在模仿的时候都执行了完整的动作,而不仅仅执行之前观察到的动作,说明婴儿能够通过人的面部或身体动作(例如表情)来推理人类意图,从而完成完整动作。而当动作的执行者由人变为机械设备的时候,婴儿并没有进行上述推理性的模仿动作,说明他们并不认为机械设备具有意图。

2.先天论

一些学者认为婴儿具有天生的特异性系统,该系统能识别特定的行为线索,并借助该线索判断动作实施者的意图和行为结果。Gergely和Csibra(2003)结合多年的研究成果提出了目的论。该理论认为,婴儿本来就具备一种抽象的表征系统或者说计算系统,引导婴儿推理主体(生命体或非生命体)的意图性动作。随后,Csibra和Gergely(2007)又进一步提出目的论的三种机制,一是动作-效应关联,根据该观点,个体认知系统中的动作表征与他想要的目的表征相联系,因此动作系统的激活能引起相应的目标状态的期待,想要实现的目标状态也会自发激活相应的动作系统;二是模仿程序,个体通过想象自己在别人的位置上来理解他人的心理状态,在理解他人的动作时根据自己要达到相同的目标时,用自身的动作系统产生动作的表征来理解他人动作;三是在目的推理时,根据"合理性准则"综合考虑动作、目标和情境限制三者的关系。"合理性准则"认为,婴儿具有将动作归因为有目的的行为的先天倾向。这种心理机制包含有三个成分:动作,动作结果,和环境的限制。从其中两个成分可以推论出第三个成分。比如比如在环境限制下,动作应该以最有效的方式完成结果。

Luo(2011)发现3个月大的婴儿也能理解非人类主体的动作意图,实验中让婴儿坐在妈妈的腿上观看一个木制演示平台呈现的视觉习惯化任务。在习惯化阶段,婴儿看到一个自动推进的纸盒移向右边的圆锥体,而不是左边的圆柱体。在测试阶段,圆锥体和圆柱体的位置互换,当婴儿看到纸盒移向右边的圆柱体时,注视时间显著变长。表明婴儿已经理解"纸盒"的目标是圆锥体。

在Gergely等人(Gergely,Nádasdy,Csibra和Bíró,1995)的实验中,在习惯化阶段,向婴儿重复呈现小圆圈绕过障碍物追逐大圆圈,在测试阶段去掉障碍物,向婴儿呈现小圆圈直接追大圆圈和小圆圈按原路(绕路)追逐大圆圈两类事件,由于小圆圈直接追逐大圆圈比习惯化阶段的原路追逐更高效。6个月的婴儿会认为绕路的情况违背预期,从而注视更长的时间(图3a)。上述研究证明了观察到环境限制和动作结果后,婴儿能够推论出动作。Csibra,Biro,Koos和Gergely (2003)将这个实验进行扩展,考察了婴儿观察到动作和环境限制之后,是否能推测动作结果。实验者在习惯化阶段呈现小圆穿过障碍物大圆绕过障碍物,之后被屏幕遮住导致不能看到动作结果。在测试阶段去掉障碍物,呈现两类事件,一类是大圆追到小圆后继续向前,另一类是大圆追到小圆后停下,构成追逐动作(图b)。结果发现,12个月的婴儿对前一类事件产生去习惯化,说明这类动作结果与他们的推论不符。研究者还研究了婴儿观察到动作和结果之后,是否能推测环境限制。在实验中,一块不透明的板子遮住部分环境,婴儿看到一个圆圈在被板子遮住的地方绕路前进,在测试阶段去掉板子呈现有障碍物和无障碍物两类环境(图c)。12个月的婴儿对无障碍物的环境产生去习惯化,说明他们在习惯化阶段推论出板子后应该有障碍物。

Gergely,Bekkering和Király(2002)发现婴儿会评估限制情境下,手段与目标关系的合理性。研究者将14个月大的婴儿分成两组分别观看用不同的动作开灯的情境。组1的婴儿看到的情境是由于成人的两只手被毯子裹在里面而无法用手开灯,因此用前额去开灯;组2的婴儿看到的情境是虽然成人两手是空的,但也用前额开灯。一星期后,给婴儿呈现同样的灯,结果发现组1的婴儿中模仿用前额开灯的只有21%;而组2的婴儿中有69%再现了用前额开灯的动作。为什么组1的婴儿有79%选择不模仿成人的动作呢?Gergely等人认为因为婴儿自己的手里是没有东西的、自由的,因此他们会推断用前额开灯这个动作不是最合理的。

图3

3.概念泛化

郑小蓓等人(郑小蓓,孟祥芝和朱莉琪,2010)认为婴儿的头脑里的概念表征在形成初期是泛化的而不是特异的。这一解释类似于语言获得领域的理论。例如,当给婴儿呈现苹果,并告诉它"苹果"这个词的时候,婴儿并不只是把这只苹果和这个词联系起来,也不是把苹果这类物体和这个词联系起来,而是把所有圆形的东西都和这个词联系起来。也就是说,婴儿最初形成的认知表征是泛化和普遍的。同样的,婴儿在习得某动作时,对该动作的概念不仅限于一模一样的动作,而会拓展到其他类似的动作。比如在Reid等人(Reid,Csibra,Belsky和Johnson,2007)的研究中,研究者让婴儿观察扭曲的手臂抓握物体,或者成人倒水等婴儿不可能实现的动作,结果发现对于这类事件,婴儿依然能够推论出行为的目的。婴儿虽然没有经历过一模一样的动作,但是这类动作和婴儿曾经经历的某类动作可能有类似之处,在婴儿的概念里将这些相似动作归为一类。对于扭曲的手臂抓握物体,可能由于婴儿缺乏关于手臂的概念,结果表现出对自己尚未经历的动作也能够推论出动作的意图(Southgate,Johnson和Csibra,2008)。

4.婴儿意图理解与语言获得的关系

意图的理解在语言获得方面也有重要作用。对儿童来说,将词汇和客体进行匹配的时候可能遇到无限的可能性,将这些可能局限在一定范围内,就要求儿童在学习语言的时候,既要掌握语言系统的特定知识,也需要一般知识,其中包括理解他人意图的能力(Woodward和Markman,1998)。另一方面,儿童学习语言是一种交互性的行为,他们学习词汇时需要一系列与他人互动的能力,这种能力的前提就是要理解他人动作的意图。因此,意图的推理能力是语言产生的基础之一。Tomasello和Haberl(2003)发现,12个月的婴儿能够追随人们看见或者看不见的东西,并且用这些信息来解释他后来听到的发音,婴儿认为成人吃惊或激动的语气一定表示他们看见了之前没有看到的东西。一些研究也表明12到14 个月的婴儿对新词汇的理解建立在说话者的注意和意图等信息之上(Baldwin和Moses,2001)。

相关推荐
九尾狐ai2 小时前
从九尾狐AI实战案例解析AI短视频获客的系统架构与实现方案
人工智能
格林威2 小时前
Baumer相机金属弹簧圈数自动计数:用于来料快速检验的 6 个核心算法,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·计算机视觉·视觉检测·堡盟相机
万行2 小时前
SQL进阶&索引篇
开发语言·数据库·人工智能·sql
名字不好奇2 小时前
一文拆解MCP协议
人工智能·mcp
乾元2 小时前
拒绝服务的进化:AI 调度下的分布式协同攻击策略
人工智能·分布式
困死,根本不会2 小时前
OpenCV摄像头实时处理:从单特征到联合识别(形状识别 + 颜色识别 + 形状颜色联合识别)
人工智能·opencv·计算机视觉
工具人呵呵2 小时前
[嵌入式AI从0开始到入土]22_基于昇腾310P RC模式的ACT模型部署实践
人工智能
yj_sharing2 小时前
PyTorch深度学习实战:从模型构建到训练技巧
人工智能·pytorch·深度学习
安全二次方security²2 小时前
CUDA C++编程指南(7.31&32&33&34)——C++语言扩展之性能分析计数器函数和断言、陷阱、断点函数
c++·人工智能·nvidia·cuda·断点·断言·性能分析计数器函数