9-10 运动感知(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一.运动的四个水平

有研究者将人类动作划分为四个水平(Aggarwal和Ryoo,2011;Ziaeefard和Bergevin,2015):(a)姿势,个体通过运用肢体的运动或静止所呈现的形态来传达某种信息的状态,这是动作的第一个水平,构成了动作的最小单位;(b)动作,运动的第二个水平,个体通过改变肢体形态或姿势来传递信息,达成行动目的。一个动作通常由若干个姿势组成,如抬腿、摆动手臂、行走;(c)由人与人、人与物之间的互动所构成的动作,这是运动的第三个水平,如洗衣服、下棋、打架等。(d)由三人或三人以上组成的集体动作,这是动作的第四个水平,如派对、集会等。

二.运动特征察觉器

在大脑皮层中发现了很多对特定特征反应的细胞,有些细胞对某种特定的颜色反应,有些细胞对某一朝向的条状物反应...(91:视觉通路)。另外,Hubel和Wiesel(1959,1965)在纹状体皮质中也发现了对特定运动物体反应的细胞,如对朝某一方向运动的条状物反应,对朝某一方向运动及有特定朝向的条状物反应,或对朝某一方向运动且有特定长度的条状物反应。这些对运动物体反应的细胞就是运动特征察觉器。

1.赖卡特探测

Reichardt(1969)提出了用于运动检测的神经回路,被称为赖卡特探测器。它可以用于解释如何检测特定运动方向和特定运动速度的神经机制,借助图1理解它。这个赖卡特探测由A、B两个感受器神经元(它们分别拥有各自的感受野)、一个延时装置和一个输出装置构成。一个物体从视野中沿着一个特定方向运动,当它经过了A的感受野时,A神经元便会放电产生一个输出信号,这个A的信号会经过延时装置并被延时输出。当物体继续运动到B的感受野时,便会使B放电产生输出信号。输出装置的激活条件是,同时接受到A和B的输出信号。如果这时A的延时信号和B的信号同时到达输出装置,输出装置会被激活产生放电。反之,如果A和B的其中一个先到达而另外一个后到达,输出装置就无法被激活。

很明显通过这个装置我们可以检测到特定方向和特定速度的运动,运动方向根据感受野的相对位置而定,运动速度则由延时器以及两个感受野之间的距离确定。在运动方向方面,A的感受野和B的感受野的相对方向是固定的,因此该装置只能检测特定方向的运动。比如A的感受野在B的正左方,那么显然该装置只能检测从左到右的运动。相反,如果物体从右到左运动,那么物体会先经过B再经过A,B的信号显然会先于A的信号达到输出装置,因此此时输出装置无法被激活。在运动速度方面,如果运动速度过快,A的延时信号还未准备好时物体就运动到B的感受野了,当B的信号以到达输出装置,A的信号还未到达,输出装置就无法被激活。同理如果运动速度过慢,A的信号已经到达输出装置,而B的信号还未到达,输出装置同样也不会被激活。

在皮质中存在检测各种方向和各种速度的神经装置,因此我们能较为完整的感受到这个运动的世界。生物学上已经在人类、灵长类动物、啮齿动物和两栖动物等生物中发现了这样的装置(Borst和Egelhaaf,1989)。

图1

2.孔径问题

运动的感知最早发生在纹状皮层,该区域的细胞只能感知一小块感受野的运动。由此带来的一个问题就是孔径问题,结合图2进行说明。假设图2中的圆孔是一个纹状体细胞的感受野,此时有一只笔从该感受野经过,经过的方式有两种,一种是从左到右的水平运动,另外一种是从左下到右上的倾斜运动。可以观察到,无论是哪一种运动方式,对于该纹状体细胞的感受野而言,它所感知到的运动都是从左到右。因此,一些小的感受野感知一个较大物体的一部分时,可能就会造成错误的方向感知(对于该感知细胞而言)。这个现象被称为孔径问题。

图2

解决孔径问题的方式有两种,一种是对物体末端作反应,比如对笔头的感知,如图3所示。显然,对于笔头所在的感受野,水平运动和倾斜运动的感知是不同。Pack等人(Pack,Livingstone,Duffy和Born,2003)就在纹状体皮质中发现了一种只对移动物末端反应的神经元。另外一种就是,颞中区的细胞汇聚了很多来自于纹状体细胞的输出信号,它可对更大的感受野反应(Rust,Mante,Simoncelli和Movshon,2006),当该感受野囊括了整个物体时,就能很好的解决孔径问题(Bruno和Bertamini,2015)。

图3

3.颞中区

在颞中区中,存在检测运动客体(更大的感受野)的神经元。Newsome和同事(Newsome ,Shadlen,Zohary和Britten等人,1995)将一些随机运动点用于猴子的运动知觉测试。在实验中,这些随机运动点设置了不同的相关性。如图4,当所有点的运动方向都是随机时,相关度为0%;当有一半的点朝着同一方向运动而其他点随机方向运动时,相关度为50%;当所有的点运动方向一致时,相关度为100%。在猴子判断点运动方向的同时,研究者测量了其颞中区的反应。实验发现,当点的相关度增大时,猴子颞中区的神经反应加快,并且判断点运动方向的正确率增大。如相关性为0.8%时,猴子颞中区未被激活,且不能判断点的运动方向。当相关性达到12.8%,猴子颞中区的放电速率高于基线水平,且能正确判断点运动方向。

图4

三.光流与似动

上面介绍了对运动特征的感知,接下来介绍两种运动感知方式,光流与似动。前者是一种连续的感知;而后者则是一种错觉现象,即把客观上不连续的位移看成是连续的,该机制同样可以用于解释运动如何被感知。

1.光流

(1)全局视神经流和局部干扰

光流由美国心理学家Gibson(1950;1966;1979)首次提出。如果将视觉图像表示为一种光点阵列,那么光点阵列中的某些或全部光点的移动就是光流。光流分为两种,一种是全局视神经流,它一般由观察者眼睛的转动和身体的移动产生(也可以由VR等技术产生),这时眼中所有的光点都会沿着运动相反的方向流动,如头从左到右转时,光阵就会从右到左流动;人往前走,光阵就会从前往后走。

全局视神经流有两个特性,第一,离观察者越近的光流,其速度越快,反之则越慢,这种现象被称为光流梯度。在图5(a)中可以使用线段的长度表示光流的速度,越长的线段表示速度越快。当然,观察者自身的速度也会影响光流速度(因为当观察者运动的速度越快时,光流也会越快)。因此,它可以用来判断自身的运动速度;第二,可以通过光流的模式判断运动方向。当做直线运动时,运动方向的终点被称为延伸焦点(如图(a)中的竖直直线),它表明我们正朝向它运动。因此,可以使用延伸焦点判断直线运动的方向。延伸焦点处没有光流产生,并且所有的光流从该处放射而出。当作转弯运动时,光流会向转弯方向倾斜,如图(b)(Warren,1995)。

光流模式也与头部和眼睛的转向有关。以直线运动为例,当头部保持注视前方时,延伸焦点处于视觉的正前方;当头部方向不在正前方且延伸焦点仍然在视觉之中时(如头转向45度),所有的光流仍然会从延伸焦点放射而出,但此时延伸焦点已不处于视觉中央处;当在行驶的车辆上看着侧窗时(头转向90度),延伸焦点不在视觉之中。

图5

第二种是光阵的局部干扰,它是指光阵整体不变而局部变化。这出现在观察者的身体、头部和眼睛均保持不动,但是视觉前景相对于背景发生了运动的情况。当前景在背景中发生了相对运动时,前景在背景的相对位置发生了变化。且一部分背景被遮盖,而另一部分的背景又显露出来。

当然,更多的情况是全局视神经流和局部干扰同时出现。比如在步行街上行走时,首先自身的运动会引起全局视神经流,而其他行人的移动也会引起局部干扰。这时视觉的光流模式为两者的矢量和,如图6。

图6

(2)流分解

当全局视神经流和局部干扰同时出现时,如何正确的识别正在运动的客体呢?Gibson(1954)认为,不符合自身运动所产生的全局视神经流的那么部分光流,可以被认为是由客体运动所产生的。Rushton和Warren(2005)认为,大脑通过对光流模式的自动分析,可以从中得出由自身运动所产生的全局视神经流成分,该成分随后被视觉系统从整个光流模式中自动的摘除,而摘除后所剩下的成分就是客体运动所产生的局部干扰。该理论被称为流分解假说。以下图8为例,图(a)展示了一个观察者沿着走廊向前走的光流模式,与此同时有一个小球垂直下落。对于小球的光流(后两者的矢量和),除了有一个垂直向下的分量(该分量由小球自身运动产生,如图(c)),还有一个从前往后的分量(由观察者行走所产生的全局视神经流提供)。为了能正确的感知到小球的运动,大脑需要用视网膜所感应到的光流模式减去全局视神经流(即用图(a)减去图(b)),最后我们才能将小球感知为垂直下落(图(c))。再次提醒的是,小球在视网膜的像除了有一个垂直下落分量,还会有一个向着观察者方向的分量。但这并不是观察者所知觉到的。换句话说,视网膜的光流模式并不一定是观察者所知觉的运动模式。在经过流分解后,只有小球的垂直下落运动被观察者知觉到。

图8(a) 图8(b) 图8(c)

Warren和Rushton(2009)在实验中给被试呈现一个模拟观察者向前运动的刺激,即光流从延伸焦点放射(图像正中央)而出,形成全局视神经流。同时有一个探测点也在屏幕上运动,形成局部干扰。被试需要做的是,调整仪器表上的针头,使针头方向与所知觉到的探测点运动方向一致。研究者之后测量探测点真实运动的方向与被试调整探针所指的方向的差值,其被称为相对倾斜度。全局光流有三种实验条件,一种是全局模式(如图9(a)所示),即正常情况下的光流;第二种是同侧模式,即去除场景中一半的光流,并将探测点放在有光流的一侧(图9(b));第三种对侧模式,同样去除场景中一半的光流,把探测点放在没光流的一处(图9(c))。这三种模式在实验结果均表现出,当探测点离屏幕中心(延伸焦点)越远时,相对倾斜度越大。根据流分解假说,被试所感知到的探测点运动模式,应该是由视网膜的光流模式减去全局视神经流而得出的。当探测点离屏幕中心越远时,全局视神经流分量就越大(因为速度越大),所得到的相对倾斜度就会越大。因此该研究很好的支持了流分解解说。另人惊奇的是,第三种条件也发现了这种现象,不过该条件下的相对倾斜度要小于前两种条件下的。前两种条件的实验结果无明显差异。

图9(a) 图9(b) 图9(c)

(3)中心偏向性

一些研究利用光流来模拟观察者在三维空间中沿着直线前行的视觉输入,结果发现观察者可以通过定位光流延伸焦点的位置来判断自身运动方向(Warren,1976),而且在理想条件下只存在1°到2°的误差(Crowell和Banks,1996)。

中心偏向性指观察者感知到的运动方向常常比实际运动方向更偏向于中心位置。在实验中(D'Avossa和Kersten,1996;Warren和Hannon,1988),首先给被试呈现一个光流刺激模拟被试的自身运动视觉输入,然后要求被试对它进行报告,通过鼠标点击自己感知到的运动方向。结果发现如果在实验中向观察者呈现向左侧运动的光流,观察者给出的反馈会比实际偏右,即偏向于屏幕的中心。例如,给被试呈现的光流运动方向为向左侧10度运动,即-10 度,但被试的实际判断为-7度;向观察者呈现向左侧运动的光流亦然。

在实验中研究者还发现如果减少光流的密集程度,或减少光流运动的一致性程度,即在光流刺激中增加一部分噪音,具体体现为一部分的光流方向是杂乱无章的,中心偏向性效应增强。在Xing(2016)的实验中发现,当光流刺激的的噪音由0% 逐步增加到25%、50%、75%后,此时被试的判断会更加偏向于屏幕中心。说明当光流信息的可靠性降低时,中心偏向程度会增加。研究者认为这可能是由于观察者对自身运动方向进行感知的时候,会对光流信息和日常生活提供的信息进行整合,所以当光流提供的信息逐步变得不可信时,人们开始更加重视日常生活提供的信息。在我们的日常生活中,我们通常是朝向面部所在方向进行前进的,而不是左右横向运动,因此日常经验中正前方的概率是最高的,并随着左右两个方向逐渐递减。研究人员还在对猴子的研究中发现,当运动方向在左右45°的范围内时,猴子可以很好地进行方向判断,然而一旦超过45°的范围,猴子的判断准确度会大大下降,从而进一步的表现出中心偏向性。

(4)运动感觉与客体运动感知

流分解假说从视觉的角度去解决个体运动时的客体运动感知。而通过这种假说所得到的客体运动是很不准的(Matsumiya和Ando,2009)。事实上全局视神经流可以看作一种运动感觉(可以通过运动感觉来感知自身的运动),而运动感觉还包含前庭觉(15-3:前庭觉)、本体感觉(15-4:身体感觉:本体感觉)等不同系统产生的感觉。MacNeilage等人(2012)在研究中要求被试在一个3D点云的模拟场景中识别出物体运动,实验包含两种条件,一种是同时提供前庭觉信息和视觉信息,另外一种是只提供视觉信息。实验结果表明,被试在前一种条件的成绩要好于另外一种的。因此,其他运动感觉也参与了运动过程中的客体运动感知。

伴随放电理论解决的是眼动本体感觉与客体运动感知的问题。为了理解伴随放电理论,先考察下面的例子。如图10,第一种情况是观察者眼睛不动,另外一个人从观察者眼前经过,这时观察者眼中(中央凹)的人像是运动的。结果是客体运动被感知到(图(a))。第二种情况是观察者眼睛随着人的移动而移动,人在中央凹的像是静止,这时人同样能被知觉到是运动的。结果同样是客体运动被感知到(图(b))。第三种情况是眼睛环视背景,但没有其他前景在作相对运动,这时观察者眼中(中央凹)的像是运动。但结果是没有感知到客体运动(图(c))。将这些现象整理成下表1。

图10

表1

那么伴随放电理论是如何解释这些现象呢?图像在视网膜上的位移被称为图像位移信号(IDS);眼动的信号被称为伴随放电信号(CDS),它是大脑控制眼动的控制信号;另外,在该理论中还有一个比较器,如图11。比较器的作用在于,比较IDS和CDS的发生情况。当只接收到其中一个信号时,能检测到运动。而如果同时接收到两个信号或者两个信号都不存在时,不能检测到运动。结合上例,当视觉检测到运动(即有IDS),而眼睛没动(即无CDS)时,即只有一个信号被比较器接收到,因此能检测到运动,对应情况1(图(a));当眼睛跟随物体运动时,即没有IDS但有CDS时,能检测到运动,对应情况2(图(b));当眼睛环视环境,比较器同时接受到IDS和CDS,不能感知到运动,对应情况3(图(c))。

图11

最后,不论是流分解假说、伴随放电理论还是来自其他运动感觉的影响,它们都应该共同作用于运动过程中的客体运动感知。

2.似动

(1)似动现象及神经机制

感知运动有两种方式,一种就是通过物体的真实运动(光流),如一辆汽车从面前经过。另外一种是似动,指把客观上不连续的位移看成是连续运动的一种现象。它不是由真实运动所产生,而是一种运动错觉。如图12中两个分离的光点,当它们交替闪烁的频率足够快时,它们被感知到就像是一个光点在来回移动一样。Larsen等人(Larsen,Madsen,Lund和Bundesen,2006)分别对被试呈现三种不同刺激,一种是同时闪烁两个不同位置的光点;一个是一个光点来回移动(真实运动);最后一种是两个光点交替闪烁,但闪烁频率足够快因此产生似动现象。被试在观看刺激的同时接受fMRI的扫描。结果发现第二种情况和第三种情况的脑部活动相似(红色区域表示真实活动激活的区域,黄色表示似动激活的区域),如图13。

图12

图13

(2)姿势模板匹配

真实运动与似动有着相似的大脑激活区域。那么它们是否有相似的机制,如果有的话,那么是否可以利用似动的原理来识别动作,即用一组离散的姿势序列来表征一个动作,而姿势与姿势之间的时间需要足够短且其差异需要足够大。一个动作的一些离散姿势(姿势数量不一定是两个,也可以是多个)可以看成是似动现象里的一些离散图案,当姿势之间的时间间隔足够短时,呈现出来的效果就如真实运动一样,因此可以用姿势序列来表征动作。当然,在一些姿势变化率大的动作上,姿势时间间隔可以更短一些;如果姿势变化率不大,则时间间隔可以长一些。举一个极端点的例子,静坐或者保持立正期间只有一个姿势,因此实际上可以用一个坐姿或者一个站姿来表征整段时间的动作。

这样做对于资源的节约是很有好处的。比如对于一个长一个小时的电影,如果每秒60帧(即60张图片),那么整个电影的图像数量为216000(60分钟*60秒*60帧)。大脑存储着各种各样的动作,如果这些动作如电影胶卷一样被存储着,那么所占资源将会变得非常巨大。因此使用姿势模板存储动作可能是大脑较为有效的存储动作资源的一种方式。

3.生物运动

(1)介绍

生物运动是指生物体(人类和动物)在空间上的整体性移动行为,如行走、奔跑等,以及手、头和眼睛等局部运动(Blacke和Shiffrar,2007)。作为社会或自然的动物,难免需要和其他动物打交道,以满足各种需求。对生物运动的识别在交流和互动等活动中有着举足轻重的作用。生物运动的特殊知觉能力在人类生命早期已有所表现(蒋毅和王莉,2011)。比如,4个月的婴儿更喜欢注视生物运动的光点运动序列,能分辨生物运动的光点运动序列和随机点运动的光点运动序列(Bertenthal,1993)。还有相关研究表明刚出生两天的婴儿已表现出对生物运动的偏好(Simion,Regolin和Bulf,2008)。Vallortigara等人(Vallortigara,Regolin和Marconato, 2005)在动物身上也发现了类似的现象, 如刚刚出生的没有任何视觉经验的小鸡更偏好于生物运动刺激,这说明生物运动偏好是一个跨种系存在的普遍现象。因此,生物运动在运动感知中具有重要地位。

Johansson(1973)开创性的利用光点动画技术将生物体运动模式从形状特征中分离出来。该技术在人体的一些重要关节上贴上信号灯,当该人体在黑暗背景运动时便可得到黑色背景下的亮点活动,从而记录这些关节的运动轨迹。在实验中,观察者仅通过这些亮点活动就能识别出人的运动。如图14,上列图案分别表示步行的外型轮廓(左边)及其光点布局(右边),下列图案表示跑步的。在实验中即便演员只迈出一两步(被试只能看到光点),被试也能正确的识别到这它们。

图14

Grossman和Black(2001)让被试观察两类光点动画序列,一类由真实步行运动构成,如图15(a);另外一类是与步行运动类似的、但是无法辨认的和杂乱无章的光点运动,如图(b)。研究发现比起第二类光点运动,第一类能引起颞上沟(STS)更大的活动,因此表明该区域负责对生物活动的识别。随着光点动画技术的日渐成熟,它以成为研究生物运动的有效工具。

图15

(2)注意和工作记忆

(a)注意

有研究表明(Thornton,Rensink和Shiffrar,2002),生物运动识别可以在无注意参与的情况下完成,也可在有注意参与的情况下完成。该研究将人体运动的光点运动序列置于噪声点之中。如图16,图(a)第二张图的白点是生物运动的光点,它从第一张图中提取出来。黑点表示噪声点,这些噪声点随机的分布在展示刺激之中。要注意的是,实验中噪声和生物运动都是一样的光点,图(a)第二张图是只是为了说明使用,实验给被试呈现的如图(a)第三张图所示,噪声和生物运动光点混杂在一起。

当生物运动序列开始展示时,噪声点也会随之而运动。噪声点的运动模式有两种,一种随机模式,即噪声点在每帧图片上均随机运动,另外一种是跟随模式,即每个噪声点的运动轨迹均与某个生物运动的光点运动轨迹相同。被试需要做的是判断生物运动的步行朝向(向左还是向右)。实验结构表明,即使在噪声条件下,被试的成绩也相当的高,随机模式为98%,跟随模式为91%。另外,为了测试被试在生物运动加工的注意程度,研究者使用了双任务实验范式。即被试在判断步行朝向的同时,进行另一个变化察觉任务。变化察觉任务如图16(b)所示,展示刺激中出现了四个矩形,被试需要判断在实验过程中图像序列的四个矩形是否发生变化(如图,右下角的矩形转向发生变化)。如果生物运动加工需要注意力,那么相比起单任务(仅判断步行朝向),双任务条件(判断步行朝向及矩形是否变化)下成绩会下降。而研究发现,双任务条件下,噪声点在随机模式下被试的成绩变为了87%,而跟随模式下被试的成绩下降明显,为52%。研究者认为,在随机模式下由于难度较低,因此生物运动无需注意,单任务和双任务的成绩差距不大。而在跟随模式,噪声点干扰了生物运动的合成,因此需要主动注意,单任务和双任务的成绩差距大。

图16(a)

图16 (b)

(b)工作记忆

Wood(2007)的研究表明,生物动作具有独立的缓存器,它与空间位置和颜色等信息分别存储于不同的工作记忆区间中。生物运动工作记忆的记忆容量大约为2到3个,且与动作的时间长短无关,即大脑是将生物运动整合起来表征的。另外,Vicary等人(Vicary,Robbins,Calvo-Merino和Stevens,2014)发现,连贯的动作图像序列并不会促进对单个姿势(每帧的图像)的记忆。不连贯的图像序列对姿势的记忆比连贯的更好。这表明,生物运动和姿势在工作记忆中的加工是不同的。

(3)身体形状加工与身体运动加工

(a)基本定义

身体形状加工与身体运动加工是两种关于生物运动的加工模型。身体运动应该同时包含两种信息,一种是身体形状信息,另一种是身体运动信息。身体形状信息是指,在光点动作序列中,每个光点代表身体的一个位置,一个时刻的各个光点位置整合起来便构成了身体形状信息。身体形状加工是指,在生物运动加工中,加工的信息是身体形状。而通过将各个时刻的身体形状串联起来,便可得到对动作的识别。它着重于各个点所构成的构型以及构型随着时间的变化。身体运动信息是指,生物运动中各个光点的运动信息,比如每个光点的运动速度和运动轨迹等。身体运动加工是指生物运动中对身体运动信息的加工。它着重于各个点的运动轨迹。

(b)身体形状加工的证据

如何确定身体形状信息在生物运动中的作用呢?Beintema和Lappe(2002)采用有限时程技术将身体形状信息从身体运动中分离了出来,它是光点动画序列的一种变式。在标准的光点动画序列中,光点固定在关节中,从空间上光点组成了身体的形状信息,从时间上光点刻画了关节的运动轨迹。有限时程技术与正常光点动画序列有两点不同,第一点是将光点随机置于关节之间的任一位置上(即四肢上);第二点是光点的位置不固定,在每经历一定的时间后就会在两关节之间随机变化。这样原来每点的运动轨迹就会被完全破坏(因为该运动轨迹除了关节的位移分量,还包括一个在四肢位置上随机变化的位移分量),从而去除了身体运动信息。因为每个光点只在两关节之间变化,因此保留身体的四肢信息,从而保留了身体形状信息。实验结果发现,经过有限时程技术变化的光点序列仍然能被被试很好的识别出来。另外,该实验还发现如果身体形状所包含的光点数量越多,即提供的身体形状信息越完整,被试的识别成绩越好。而光点在相同位置上持续时间的长短,即光点提供的局部生物运动信息,则对成绩无影响。这说明生物运动知觉仅依赖身体形状信息而不依赖身体运动信息(Beintema,Georg和Lappe,2006)。

(c)身体运动加工的证据

Mather、Radford和West(1992)通过控制帧与帧之间的时间间隔和间隔帧数研究生物运动,发现了生物运动信息对生物运动的作用。在实验1中,对试次呈现一个包含20帧的动画序列,每帧呈现的时间为40ms,根据帧与帧之间的时间间隔设置了三种实验条件,分别为0ms、60ms和120ms。实验结果显示实验条件为0ms的时候被试对生物运动的识别成绩最好。在实验2中,帧与帧的时间间隔设置了12ms、48ms和120ms三种条件,间隔帧数设置看一帧(即连续呈现)、两帧(如取动画的第一帧、第三帧、第五帧...)和四帧(如取动画的第一帧、第五帧、第九帧...)三种条件。实验结果显示,只有当时间间隔为12ms而间隔帧数为1帧时,被试的成绩最好。在各种条件下,由于光点固定在关节上,因此生物的形状信息得到了保留。但通过对间隔时间和间隔帧数的增加,破坏了每个光点的连续运动,因此损害了生物运动信息。当生物运动信息被破坏时,被试的成绩受动了损害,因此证明了生物运动信息对生物运动加工是具有作用的。

(4)双通路模型

(a)基本假设

Giese和Poggio(2003)考察了大脑对生物运动信息的加工机制,提出了双通路模型。该模型有如下假设,这些假设与解剖学和生理学的研究事实一致。该模型有两条并行通路,分别称为形状通路和运动通路(类似于腹侧通路和背侧通路),形状通路用于处理形状信息,而运动通路用于处理光流信息。每条通路都是由各自的特征察觉器组成,分别提取形状特征和光流特征,并形成层次化结构。随着层次结构的增加(即通路的进行),特征察觉器所提取的特征越来越复杂,感受野的大小越来越增加,位置和大小不变性也随之而增加。生物运动的表征是一系列的"快照",它们是在与世界交互过程中获得的。这些快照分别存储在形状通路和运动通路的特定神经元上,用于形状通路的身体形状识别和运动通路上单个时刻的复杂光流模式识别。鉴于大脑能对生物运动进行瞬时识别,该模型的两条通路是前馈式(至下而上)的。模型的整体结构如图17所示。

(b)形状通路

在形状通路,第一层是由V1区中的简单特征察觉器(如某个方向的条状物)组成;第二层由V2区和V4区的细胞组成,这时所提取的特征具有一定的位置不变性和尺度不变性(V1区的感受野较小,因此条状物在V1区细胞的位置较为固定。而V2和V4区的感受野较大,同样的条状物可以处于V2和V4区的任意子区域,因此相比起V1区,V2和V4区具有更大的位置不变性;尺度不变性有着类似的意思,即V1区的条状物的大小较为固定,而V2和V4区的条状物可以大也可以小(当然在V2和V4区的感受野范围内))。有证据表明,V2和V4区拥有对位置不敏感的神经元(Hegdé和van Essen,2000),而大小不变性是V4区细胞的典型特征(Pinon,Gattass和Sousa,1998)。V2和V4区还能识别更复杂的特征,如角点特征或连接处特征(Hegdé和van Essen,2000;Pasupathy和Connor,1999)。实现位置和尺度不变性的一种神经生理学机制是将具有相似方向、但具有不同感受野和不同空间尺度的底层特征察觉器的反应汇集起来,而池化是通过一个最大操作来完成的。举个例子说明"汇聚"和"池化",以此说明该神经机制。一个对45度条状物反应的V4神经元会收集多个V1区神经细胞的反应,这些被收集的V1区神经细胞均对45度条状物反应,而不同的V1细胞其感受野位置不同,对条状物大小的敏感程度也不同(一些只对大条状物反应,而另一些只对小的)。这便是"汇聚"。那什么是最大池化呢?V4区细胞汇聚了多个V1区细胞的输入,如果有一个或以上的V1区细胞被激活(即仅需一个细胞放出最大输出),V4就会被激活,即最大池化。因为不同的V1细胞有不同的位置特征和不同的大小特征,因此具有任一位置及任一大小的V1细胞被激活时,它所连接的V4细胞就会被激活,从而似V4细胞具有位置不变性和大小不变性。第三层是颞叶下皮层(IT区),它存储着身体形状的快照,对身体形状进行识别。另外,在颞上沟(STS)和枕部梭状回脸孔区(FA)也发现了类似的知觉活动。第四层是由运动模式神经元组成,它的作用是某个识别动作。它可能位于STS、运动前皮层(F5区),也可能位于FA。运动模式神经元按动作姿势的时间顺序整合了第三层各个姿势快照,只对特定的动作反应。

(c)运动通路

在运动通路,第一层由V1区的方向选择神经元和中颞区(MT)的运动选择神经元构成,它们只对小范围(其感受野范围)的光流反应。第二层对更大范围的光流反应,包括区域和边缘两种光流检测器,其对应区域包括MT区、枕叶运动区(KO)和MST区。第三层的神经元对单个时刻的某种复杂光流模式反应。或者说,对单个时刻的生物运动光流模式反应。它可能位于STS区和FA区。第四层与形状通路的第四层类似,它整合各个时刻的复杂光流模式,并判断是否属于某种生物运动。它可能位于STS区、FA区和前运动皮层的F5区。

图17

(d)序列性

正如电影的每帧需要按照顺序才能播放出连贯的画面。在两个通路的第四层,只有当每个快照神经元以"正确"的时间顺序被激活时,动作才会被识别出来。研究者使用了一种"不对称横向连接"来解决这种序列性。即当一个快照神经元被激活时(形状通路的或者运动通路的),会预激发下一时刻的快照神经元,并抑制其他时刻的快照神经元,如图18。然后,运动检测神经元会按照时间累计各个时刻的快照,最终将这些快照整合为一个动作,如上所述的动作模板一样。

图18

(5)双人生物运动

除了个体的生物运动,生活中也存在许多多人运动,如两个人的聊天、吵架、告别、三人的斗地主和10人的篮球赛等等。Neri等人(Neri,Luu和Levi,2006)对双人生物运动展开了研究。在实验中他们让被试观看双人的光点动画序列。实验材料包含两种条件,一种是异步化,即将视频中其中一人的前一半运动时间与后一半的对调(其中一人在视频中的运动等分为AB两段,然后将AB变为BA),而视频中另一人的不变;另外一种是同步化,即正常情况。另外,实验还随机的将其中一人的运动光点打乱。被试需要做的是判断视频中呈现的是一个人的运动还是两个人的。实验表明,被试在同步化条件下的成绩要优于异步化的。研究者认为,双人生物运动可以被自动化抽取,并用于当前的运动感知加工之中。

双人生物运动在工作记忆的表征方式可能有两种,一是将两个生物运动作为两个记忆单元存储于工作记忆之中,二是将两个生物运动借助交互关系整合成一个单元进行存储。丁晓伟利用变化察觉范式对该问题进行了研究。实验材料是光点动画序列,该光点序列可能是双人的,也可能是单人的。在学习阶段被试需要观看2段或4段实验视频,在测试阶段会给被试呈现一段视频,并询问该视频是否在学习阶段观看过。实验的逻辑是,如果双人生物运动是分开存储的(第一种可能),那么4段单人视频的成绩应该高于4段双人视频的(双人条件下需要记住8个人的生物运动,而单人条件只需4个。因此双人条件的记忆负载更高,记忆成绩也会更低);而2段双人运动的成绩与4段单人运动的应该相当(它们均只需记住4个人的生物运动)。相反,如果双人生物运动被整合为一个单位进行存储(第二种可能),那么当学习4段视频时,单人条件和双人条件的成绩应该相当;而学习两段双人视频的成绩应该高于学习4段单人视频的。实验结果支持了第二种可能(丁晓伟,2015)。

(6)倒置效应

生物运动的倒置效应是指,当生物光点旋转180度时,观察者对其的加工能力会受到损害(Ikeda,Blake和Watanabe,2005),如判断步行方向、识别动作等任务的成绩会降低。此外,当生物运动刺激被倒置时,婴幼儿时期的生物运动偏好效应也随之而消失(Vallortigara和Regolin,2006)。

面孔知觉领域也存在一种叫面孔倒立效应的现象,即当正立观看面孔时你很快就会将其识别,而将面孔倒置时就存在脸孔识别困难(Yin, 1969)。这种现象的主流解释认为,面孔加工是基于五官之间的位置关系,是一种整体加工。而倒置时这种关系就会被破坏,从而破坏整体信息(Mondloch,Le Grand和Maurer, 2002)。与面孔倒置一样,许多研究者认为生物运动的倒置效应是由于各光点之间的位置关系被破坏,从而破坏了生物运动的整体信息(Reed,Stone,Bozova和Tanaka,2003)。

(7)生物运动中的似动

Shiffrar和Freyd(1993)在实验中让被试观看一组照片流,照片流包括两张交替变化的照片,如图19(a)所示。这两张照片明显是不连续的,但是当交替的频率大于或等于5的时候,被试的知觉像是手穿过头部运动一样,如图(b)。而当频率小于5时,被试开始知觉到手像是绕过头部运动一样,如图(c)。研究者认为,当运动具有某种意义(如人体运动)时,视觉系统会以某种方式影响知觉,而这种方式需要一定的时间。

图19(a)

图19(b) 图19(c)

四.运动后效

运动后效是指,在观察一个运动物体一段时间后,当物体停止运动时,会有一种沿物体反方向运动的错觉。如观察的火车刚刚停止,会有一种火车在缓缓后移的感觉。

相关推荐
小Tomkk2 小时前
PyTorch +YOLO + Label Studio + 图像识别 深度学习项目实战 (一)
人工智能·pytorch·yolo
资讯雷达2 小时前
2026年十大外贸ERP软件深度测评与选型白皮书
大数据·人工智能·物联网
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-01-23
人工智能·经验分享·深度学习·神经网络·产品运营
大熊背2 小时前
根据单张图像检测动态范围大小
图像处理·人工智能·计算机视觉
双翌视觉2 小时前
高精度机器视觉技术赋能手机边框螺丝锁附
人工智能·智能手机·制造
小猿君2 小时前
秒级生成,一统多能:在消费级GPU上重塑视觉创作流程的开源模型
人工智能·开源
Blossom.1182 小时前
用纯 NLP 打造「零样本」时序预测模型:文本化序列 + LLM 的实战路线
人工智能·python·深度学习·机器学习·自然语言处理·架构·transformer
小二·2 小时前
Python Web 开发进阶实战:AI 编排引擎 —— 在 Flask + Vue 中构建低代码机器学习工作流平台
前端·人工智能·python
QYZL_AIGC2 小时前
陪伴式 AI 赋能:全域众链让中小微实体数字化转型 “不踩坑”
大数据·人工智能