9-22 目标跟踪(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

在日常生活中,人们常常需要同时对多个运动物体进行追踪,例如,司机在驾驶车辆时不仅要知道自己的位置,还需要对道路上的其它车辆进行追踪以避免发生车辆碰撞;观众在观看体育比赛时,往往会对某几个运动员的活动同时进行追踪,了解比赛的情况;当你与朋友一起打篮球时,你也需要注意持球队员、己方队友、对方队员以及篮筐。

一.研究范式

1.多目标跟踪范式

典型的多目标追踪实验范式通常包括线索、追踪和报告三个阶段(分别对应为图1的3幅图):(a)线索阶段在屏幕上呈现一些简单的表面特征相同的对象(如都是圆形、方形、相同的字母或十字等),其中部分对象以闪烁的形式被标记为目标,其他未闪烁的为分心物;(b)在追踪阶段,作为线索的视觉标记消失,所有对象开始做随机、独立地运动,要求观察者追踪在线索阶段标记出来的目标,在追踪一段时间后(通常 3~10秒),运动停止,进入报告阶段;(c)报告阶段,要求被试指出哪些对象是目标(整体报告)或指定一个特定的对象并询问被试是否目标(部分报告),同时记录被试的反应时和追踪正确率。实验研究表明被试可以同时追踪4~5个目标,通常情况下正确率能够达到85%~95%(Pylyshyn,2000;2004;2006),具体正确率可根据任务的难度和性质进行调整。

图1(a) 图1(b) 图1(c)

2.多身份跟踪范式

多身份追踪任务的流程与多目标追踪相似,其区别在于客体。在多目标追踪中,各客体均相同;而在多身份追踪中,客体之间各不相同,它们可能有颜色、形状等差异,具体需要根据任务而定,这种区别性特征被称为身份信息,而客体在屏幕上所处的位置被称为位置信息。多身份追踪任务同样包含三个阶段,如图2所示。(a)线索阶段,若干客体可以以闪烁的形式被标记为目标;(b)跟踪阶段,各客体随机运动,被试需要持续追踪目标;(c)报告阶段,所有客体的身份特征(客体的区别性特征)被掩蔽,被试需要在报告阶段报告目标的身份和位置。(Oksama和Hyönä,2008)

图2(a) 图2 (b) 图2(c)

二.理论模型

1.基本模型

(1)视觉标记理论(9-16:视觉特征整合)

Pylyshy指出,视觉追踪是一个自动化的平行加工过程,使用索引机制向运动物体提供4或5个索引,索引使运动物体得到优先加工,只有被索引的物体才能被进一步的被认知加工。索引具有"粘"性,当索引与追踪物体绑定后,不会因为追踪目标的变化而丢失。它会始终"粘"在目标上,并跟随目标运动。

(2)客体档案理论(9-16:视觉特征整合)

客体档案理论认为,目标可以通过其时空连续性进行跟踪(即同一个档案)。

2.分组假说

分组假说认为,所有被追踪的目标可以组成一个更高水平的对象,即以这些目标为顶点构成一个假想的多边形,被试追踪时就是在处理一个形状不断变化的多边形(Yantis,1992)。那么有哪些因素影响对目标的分组呢?在多目标追踪中,尽管对象的表面特征完全相同,观察者在某些情况下仍可基于目标的呈现方位、目标间的空间关系、距离变化、目标与非目标运动轨迹及速度的差异等因素加强对目标的分组表征,这种时空信息对分组的加强是一种基于空间的组织表征(没有这种加强,分组仍然存在)。在近年来关于多身份追踪的研究中,观察者有可能利用目标或非目标的身份特征信息(如物理性差异,如颜色、形状、大小等)进行分组表征,即基于特征的分组效应。

(1)基于空间的组织表征

Yantis(1992)通过一系列实验研究认为,在目标标记阶段,观察者首先构建起一个虚拟多边形的知觉表征,然后在目标运动过程中持续更新该内部模型。虚拟多边形的顶点由追踪目标的瞬时位置来定义,当对象运动时,虚拟多边形的大小、形状、朝向和位置都会改变。另外,物体的运动方向、速度、物体间的空间关系和距离变化等时空信息有助于知觉分组。

(2)基于特征的分组效应

在多身份追踪中,对象身份特征对目标方位追踪可能起到促进作用,也可能起到干扰作用。这取决于对象身份信息的复杂性或其在工作记忆中的负荷等多种因素。

在Makovski和Jiang(2009a;2009b)的研究中,研究者采用颜色作为对象的身份特征,发现当目标的身份特征与非目标的身份特征存在差异时(目标与非目标颜色两两不同,4个目标为两种颜色,4个非目标为另外两种颜色),与目标和非目标均为同一种颜色条件相比,观察者的追踪表现更好。对此的解释有两种可能,一种是,运用客体的特殊身份(特征)能更清晰地区分目标和分心物,维持分组(Yantis,1992)。第二种是,对象独特的身份信息之所以能够促进追踪表现,是因为目标的身份信息被储存在工作记忆中,当目标丢失时,可以利用储存在工作记忆中的信息重新找回目标。另外,当对象在运动过程中以每秒1~4次的频率变换颜色时,这种差异性对追踪表现的促进作用消失。这是因为,运动过程中颜色变换破坏了分组表征的保持。

Liu等人(Liu,Chen,Liu和Fu,2012)的研究发现,当客体刺激没有那么复杂时,例如长度为1位或2位的数字或者简单汉字,独特身份提高了追踪表现。当目标刺激在视觉上很复杂时,例如长度为3位或4位的数字或者复杂汉字,目标的独特性会损伤追踪表现。是促进还是损伤的决定性条件可能是身份加工所占用的资源水平和工作记忆的容量。当目标的身份简单并且易于加工时,独特目标的表面特征储存在工作记忆中有助于重获目标。当目标身份复杂并且不易加工时,独特的目标占用额外的认知资源且损伤追踪表现。这也可以解释当采用面孔等复杂信息为身份特征时,与目标和非目标为同一张面孔相比,目标面孔不同于非目标面孔反而会对追踪表现产生干扰(Ren,Chen,Liu和Fu,2009)。

当目标和分心物具有部分相同的特征时,追踪表现的提高消失了。例如,八个互不相同的客体共包含四种颜色特征和四种数字特征,而其中的四个客体作为目标。这个实验有两种条件,在部分重叠条件下(目标与分心物存在部分相同特征),任何两个客体在颜色和数字特征上都不同时一致,但是某一目标(如红色的5)与某一分心物(如红色的4)的颜色相同,与另一分心物(如绿色的5)的数字相同;在一致条件下,目标和分心物完全相同。实验结果发现,比起一致条件,部分重叠条件的追踪表现并未提高。这可以解释为当目标很容易与相同的分心物混淆时,目标独特性的优势降低。目标独特性并不总是能引起追踪表现的改善(Makovski和Jiang,2009b)。

然而,当实验使用的两种特征是颜色和大小时(Howe和Holcombe,2012),则没法发现这种现象(目标独特性优势降低的现象)。例如当目标为小号红色方块时,一半的分心物为大号红色方块且另一半的分心物为小号绿色方块,追踪表现与分心物全部为小号红色方块相比有显著提高。还有另外一组实验材料,当目标为外围绿色中心红色的嵌套方块,分心物为外围红色中心绿色的嵌套方块时,追踪成绩同样提高。研究者认为目标与非目标的特征差异性能否促进追踪表现关键在于,目标特征是否具有引导注意的作用,即能够把注意更多地指向到目标上。另一种可能的解释就是参与者可能基于目标的特殊性将其进行分组并与分心物隔离开来。

3.多身份追踪模型(MOMIT)(林俊天,2023)

(1)组成成分及其功能

多身份追踪模型(MOMIT)由Oksama和Hyönä(2008)提出,专门用于解释多身份追踪任务范式现象。MOMIT由五个模块构成(如图3所示),分别为早期身份信息处理模块(标记为M1)、早期位置信息处理模块(M2)、位置临时记忆缓冲器(M3)、目标选择控制系统(M4)以及身份-位置信息绑定情境缓冲器(M5)。M1与长时记忆相连,使得熟悉的客体身份处理更快、追踪更容易。M1和M2分别将信息传输到M5中,形成并保持位置-身份绑定;M3的内容来自M5的目标客体的较早的临时位置信息,并将这些临时位置信息传递给M4,M4基于目标先前位置进行注意焦点切换,活跃程度最低的目标具有最高的切换优先级,模型假设只有处于注意焦点下的目标客体的位置信息方可被更新。

(2)工作过程

多身份模型的运作过程包含4个步骤,这里以追踪三个目标(分别命名为T1,T2,T3)为例进行说明。四个步骤分别为:

(a)注意首先会聚焦于T1客体,并且在身份-位置信息绑定情境缓冲器中为之创建一个T1的身份-位置绑定,绑定后T1的位置信息将会储存于位置临时记忆缓冲器中;

(b)接着视觉注意焦点将切换至下一个目标,这一过程取决于一定的规则,即激活程度最低的客体具有最高的优先级;

(c)当注意焦点离开T1前,会依据(b)的规则确定下一客体,并切换至该客体,这里假设为T2;

(d)此时注意将在身份-位置信息绑定情境缓冲器中为T2客体创建或更新身份-位置绑定,并将其位置信息储存在位置临时记忆缓冲器中,接着重复以上的循环直到追踪结束。如果注意聚焦到一个错误的客体,即非目标,那么注意将重新进行切换直到找到正确的目标对象并为之进行身份-位置绑定。这一循环的过程可以概括为刷新过程。

在多身份追踪任务中,被试需要将身份信息与位置信息一一对应,这要求运动客体的身份信息时刻与位置信息保持绑定。否则,如果被试仅能保持身份信息而无法将其与正确的位置匹配,此时便会发生错误。

图3

(3)MOMIT2.0

Li,Oksama和Hyönǎ(2019)在MOMIT的基础上,提出了多身份追踪模型2.0(MOMIT2.0)。MOMIT2.0提出一种更灵活的追踪刷新机制:当多身份追踪任务对目标客体的身份精度需求较高时(如不同表情的人脸),注意系统会使用串行刷新的方式,即一次仅刷新一个客体;而当任务对目标客体的身份精度要求较低时(如不同颜色的实心圆),注意系统会使用并行刷新的方式,即一次刷新数个客体。并行策略与串行策略可以根据任务的要求灵活选择,且不是非此即彼的,当被试需要追踪多个线段图目标时,追踪方式并不是纯粹的串行或并行,而是同时具备两种模式的特征。

4.基于布尔地图的追踪(林俊天,2023)

(1)布尔地图的表征形式

Huang和Pashler(2007)提出了布尔地图理论,来描述这种视觉注意过程的限制。标签化的布尔地图由表征空间分布的地图和表征特征的标签构成。地图本身仅表征位置,而不表征其他特征。在地图上可以贴上某种特征的标签,而描述一张地图的特征标签必须满足:

(a)同一张地图只能存在一个特征维度的某一个特征值,如对于颜色维度只能存在绿色。如果需要同一维度的两个特征值,那么需要分开两张地图存储,即使这两个特征值同属同一个客体。如图4(a),客体圆盘由红蓝双色构成,红色和蓝色属于颜色维度的两个值,当观察者尝试感知圆盘的颜色时,必须创建两张布尔地图,即红色特征的布尔地图和绿色特征的布尔地图;

(b)如果多个客体均有某一特定特征值,那么这些客体可以表示在同一张地图上。如图4(b),该布尔地图包含两个绿色正方形,当观察者尝试感知两个方形时,仅需要创建一张布尔地图,这两个绿色正方形可以表示在其上;

(c)不同特征维度的特征值可以同时存在于同一张地图上,如向左平移和黄色。如图4(c),该布尔地图包含一个正在向左平移的三角形,当观察者尝试感知这个三角形时,仅需要创建一张布尔地图,并且同时创建颜色特征和运动特征用于标签三角形客体。

图4(a)

图4(b)

图4(c)

(2)布尔地图的访问

在布尔地图理论看来,对一红一蓝两个客体而言,要在呈现的瞬间同时访问(处理)二者的颜色是无法做到的,因为要想表征二者的颜色,则必须先后创建两张布尔地图进行串行访问,即使对由红色半圆和蓝色半圆拼接而成的圆盘来说,要同时访问其两种颜色也是无法做到的,尽管只有一个客体。红色半圆和蓝色半圆只能被先后地串行地表征在两张布尔地图上。而对于同特征的多个客体而言,如两个绿色客体,则可以被同时访问,因为它们可以被表征在同一张布尔地图上。这与客体理论的观点相违背,客体理论认为,包含一个客体的所有不同特征可以被同时访问,而对多个客体则需要串行访问(Scholl,2001)。

(3)目标跟踪

在多身份追踪任务中,需要区分目标和非目标,并不断的进行刷新身份-位置绑定。在基于布尔地图的刷新机制中,注意系统选择目标并创建布尔地图,接着访问其特征和位置信息。设想一个人试图追踪两个红色、两个绿色和两个蓝色的圆,注意系统可以首先选择红色的客体,它们的位置信息会表征在布尔地图上,这张地图只会带有一个红色特征标签,并被储存在视觉工作记忆中。随后注意系统将切换至下一种颜色的目标,并重复上述过程。根据布尔地图理论,同一时刻只能处理一张布尔地图,同一张布尔地图的多个客体(如两个蓝色的圆)可以同时刷新和储存。

5.多边形假说

该假说认为,被追踪的多个客体构成了一个虚拟的多边型,由此形成一个构型。由于人们会将构型作为一个整体进行记忆和加工(9-28:视觉工作记忆),因此追踪多个对象相当于对它们构成的构型进行加工。Yantis(1992)证明了多移动对象的构型可以被定义为每个被密切跟踪的对象位置的凸包。当多边形的一个顶点穿过对角线时,这个多边形的构型会被破坏(9-8:视觉构型,非拓扑变换),导致追踪成绩变差。

三.遮挡或丢失的情况(张学民,姚林和鲁学明,2008)

除了发现被试可以成功地追踪4~5个独立运动的目标外,Scholl和Pylyshyn(1999)发现,如果目标因遮挡等因素而消失,之后重新再现,它们可以继续被追踪。更令人惊奇的是,即使视野中所有物体同时消失的时间长达几百毫秒(200~900ms),被试也能成功地完成追踪任务,正确率达85%。这是如何做到的呢?

1.对暂时消失的目标能用似动来解释吗?

在一般情况下,对于B运动(一种典型的似动现象),间隔时间短于0.03s或长于0.2s都不会产生似动现象。而在多目标追踪的实验中,研究者发现即使场景中物体消失的时间长达900ms,被试也能继续完成追踪任务(Bex和Baker,1999)。因此,似动是很难解释个体是怎样追踪短暂消失的物体的。

2.在线加工假说

该假说认为,短暂消失物体的追踪在性质上与对可见物体的追踪是一样的。在在线加工假说看来,物体消失时,被试对物体再现的位置是存在预期的(估计物体出现的位置),并且这种预期有助于完成追踪任务。(Horowitz,Birnkrant,Fencsik和Tran等人,2006)

3.任务切换假说

Alvarez等人认为人类的视觉注意系统存在一种分时操作机制,它允许注意在多个视觉任务之间进行切换。这样,在多目标追踪任务中当物体突然消失时,个体的注意力可以被暂时转移至另一客体上。Horowitz同时认为这种多任务之间的分时操作具有非常重要的生态学意义,日常生活的很多活动都会受到突发事件的干扰,如果个体不能在多个任务间进行注意切换的话,那对个体的生存是非常危险的,如追捕猎物或躲过天敌的同时,避过前行道路的障碍物。(Alvarez,Horowitz,Arsenio和DiMase等人,2005 )

任务切换假说的分时操作要求存在一种灵活的存储机制,它能够在任务切换时存储当前任务的关键信息。具体的说,在多目标跟踪实验中,刺激突然从视野消失触发了一种离线存储机制,它能把视觉画面的当前信息保存下来。在刺激再现时,被试就可以把当前画面与存储的内容进行比较,使其与之前消失的刺激联系起来,从而继续完成追踪任务。既然对消失目标的追踪依赖于这种离线存储,那么它存储的主要内容是什么呢?在多目标追踪任务中所有刺激在特征属性(如颜色形状、大小等)上是完全一样的,目标和非目标的区别只体现在时空属性上。因此,要继续对消失目标的追踪,存储的内容应当包括刺激的时空属性。Fencsik等人认为系统不仅存储目标的位置信息,还存储目标的运动方向及轨迹信息。从消失到目标恢复的过程中,Fencsik等人还认为这里存在两种可能的机制:即基于位置的匹配和基于运动轨迹的匹配,如图5。前者指的是个体把当前画面的多个刺激的位置与存储目标(消失的目标)的位置进行比较,并把距离最短的当前画面刺激作为存储目标的重新再现;而后者认为目标复原还依靠存储目标的运动轨迹,当一个刺激再次出现在存储目标的运动轨迹上时,它更有可能被确认为目标。(Fenesik,Horowitz,Kliege和Wolfe,2004;2010)

图5

已有的研究表明,位置信息在复原目标时扮演着十分重要的角色。此外,也有研究认为,运动轨迹信息对提高追踪任务成绩的作用是相当有限。为什么会存在这种差异呢?Place和 Horowitz(2005)发现视觉系统对目标运动轨迹的信息加工是相当粗糙的,在其实验中,被试被要求判断指定的箭头是以逆时针还是顺时针方向偏离目标方向。结果发现,要达到70%以上的正确率,箭头偏离方向要大于30°,当要判断的对象为非目标时,被试的成绩停留在随机水平,也就是说被试完全没有加工非目标的运动轨迹信息。此外,Tripathy(2003)认为由于加工和保存轨迹信息需要更多的注意资源,因此轨道信息在目标复原过程中的作用是非常有限的。

相关推荐
m0_603888712 小时前
FineInstructions Scaling Synthetic Instructions to Pre-Training Scale
人工智能·深度学习·机器学习·ai·论文速览
新缸中之脑2 小时前
RAG 陷阱:向量搜索不是语义理解
人工智能
EmmaXLZHONG2 小时前
Reinforce Learning Concept Flow Chart (强化学习概念流程图)
人工智能·深度学习·机器学习·流程图
薛定谔的猫19822 小时前
十三.调用 BERT 中文文本情感分析交互式推理模型训练好的
人工智能·深度学习·bert
home_4982 小时前
与gemini关于宇宙观科幻对话
人工智能
Candice Can2 小时前
【机器学习】吴恩达机器学习Lecture2-Linear regression with one variable
人工智能·机器学习·线性回归·吴恩达机器学习
undsky_2 小时前
【RuoYi-SpringBoot3-Pro】:将 AI 编程融入传统 java 开发
java·人工智能·spring boot·ai·ai编程
薛定谔的猫19822 小时前
十二、基于 BERT 的中文文本二分类模型测试实战:从数据加载到准确率评估
人工智能·分类·bert
淮北4942 小时前
Reinforce算法
人工智能·机器学习