《智能的理论》全书转至目录****
不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。
视觉搜索指通过观察、利用视觉信息从众多事物中找到某一目标。这是人和动物赖以生存的关键能力之一。
一.视觉搜索的基本理论
1.引导搜索理论
引导搜索理论是Wolfe和Cave(1990)为了修订特征整合理论模型而提出的。该理论同样认为视觉搜索包括平行搜索和系列搜索两个阶段。首先,该理论的平行阶段分别对视觉中每个位置的每种特征进行提取,这些特征分别与目标的对应特征进行对比(求差异),并产生一个激活图(激活图的每个位置都表示特征的差异值)。这些差异是目标处于该位置的可能行,差异值越小,目标处于该位置的可能性越大。然后,在系列阶段,平行阶段产生的激活图引导搜索,挑选激活图中激活值最大(差异值最小的)的位置。当该位置的客体不是搜索目标时,使用差异值第二大的位置,并判断该位置的客体是否目标,如此类推。
2.偏好竞争模型
该模型(Desimone和Duncan,1995)认为,场景中存在着许多物体,因为注意资源是有限的,为了获得注意资源以进行下一步的处理,场景中各物体会对注意资源进行竞争。竞争发生在两条通路,一条是自下而上的刺激驱动通路,它依赖于刺激特征的显著性和对比度。特征越显著或者对比度越高越容易获得注意。如红色的花丛里中找一朵黄色的小花是非常容易的。其原因是视觉上的显著性会产生一个神经冲动,这一神经冲动达到皮层后会引起注意对该刺激的关注。另一条是自上而下的预期通路。对某一刺激或者某一位置的预期会引起对应刺激或位置的细胞增强,从而使其更容易激活。这可以认为任务目标使被试在客体工作记忆中产生一个目标模板,而目标模板的作用就在于引导注意选择视场中与之相同或相似的物体。
3.背景线索理论
(1)定义
生活中,人们通常会利用物体与场景的空间关系对物体进行搜索,以便能更高效的搜索到物体。比如常在教室右上角寻找时钟(假设时钟就在右上角),这是因为反复的观看形成了对时钟预期位置的表征。这种场景背景信息对搜索客体的促进作用称为背景线索效应。
Chun和Jiang(1998)在视觉搜索任务中设置了两种刺激条件,一种刺激是背景固定条件,即在所有的试次中,刺激项目(目标和干扰子)的构型完全相同。这类刺激构型一共12种;另外一种刺激是背景变化条件,即刺激的项目构型在场景中随机变化。目标为向左或向右旋转字母"T",干扰子为随机方向的字母"L"。被试需要做的是在刺激中即快又准的搜索目标。刺激连续出现,当被试完成一个刺激后开始另外一个刺激。如果当前所搜索的构型在之前出现过,那么该刺激就是背景固定条件,否则为背景变化条件。实验结果发现,相对于背景变化条件,背景固定条件下的搜索速度会更快。这便是背景线索效应。
(2)构型or刺激的表面形状
Chun和Jiang(1998)研究的实验2,被试一共需要先后完成24个组测试,每组包括24个试次,12个试次为背景固定条件和12个试次为背景变化条件。12组中的12个背景固定条件的刺激构型都是相同的。但与上一实验不同,该实验只对背景固定条件的构型保持固定,干扰子客体会发生变化。在前12组中,干扰子为旋转90度的"10"或者"01"(两个干扰子互为镜像),如图1(a);而在后12组中,干扰子变为旋转90度的"5"或"2"(两个干扰子互为镜像),如图(b);而目标在整个实验均为直立的"5"或者"2",如图。该实验仅前12组和后12组干扰物刺激发生变化,干扰子所在的位置相同,因此构型不变,被试可以利用构型产生背景线索效应。如果被试同时还利用到干扰子的视觉特征产生背景线索效应,那么后12组应该无法得到前12组的线索提示,从而第13组应该无法观察到背景线索效应(第14组及之后可以从第13组迁移)。而结果发现,后12组可以根据前12组的构型信息加快搜索目标的速度,因此背景线索效应所使用的仅为构型信息。

图1(a)

图1(b)
(3)内隐or外显
Chun和Jiang(1998)的研究中还有一个构型回忆任务,在搜索任务结束后,实验者会对被试呈现一个刺激,并要求被试回答该构型是否在搜索任务中出现过。这个构型可能是背景固定条件下的、背景变化条件下的或者从未在搜索任务中出现过的。而结果显示,被试在背景固定条件和背景变化条件下的回忆正确率相差无几。如果被试"记住了"构型,即外显学习,那么背景固定条件下的回忆正确率应该会比其他两者的高。显然,在这种实验结果下(即被试无法回答是否见过),被试应该是内隐的学习了构型,即一种无意识的"记忆"。
(4)目标位置与背景之间的联系
Chun和Jiang(1998)在研究中对在背景重复条件下作出了一定的修改,即保持干扰子的位置不变,而目标位置项随机变化。结果发现这种情况下没有出现背景线索效应。因此,被试学习的是目标位置与背景之间的联系,被试的视觉注意由背景线索引导向目标位置。
(5)局部or全局
背景线索效应的原因在于被试学习了目标与场景中各个干扰子的空间关系,通过这种关系使注意向目标引导。而对于同一目标,不同区域的干扰子其地位应该是不同的。目标周围一定范围内的干扰子所构成的空间信息称为局部背景,而除局部背景外的整个场景信息则是整体背景。Olson和Chun(2002)对目标位置是与全局背景联系还是与局部背景联系进行了研究。实验中只对干扰子的一部分区域保持变化,而其他的变化。而目标的位置有两种条件,一是出现在干扰子保持不变的那部分中(即局部背景保持不变而全局背景变化),另外一个是出现在变化的部分中(即局部背景变化而全局背景保持不变)。结果发现,只有当目标出现在保持不变的区域时,背景线索效应才会出现。因此,目标仅与局部背景联系,而不与整体背景联系。
(6)外围视觉的影响
中央凹所注视的范围有限,因此对构型的内隐习得需要依赖外周视觉。van Asselen和Castelo-Branco(2009)在实验中要求被试始终注视着中央"+"的位置(因此图像信息主要从外周视觉中获取),每张测试图片呈现500ms,图片会出现若干个随机方向的"L"型干扰子和一个"T"型目标,"T"型目标可以向不同方向旋转。被试不但需要定位目标,还需要指出目标的方向。12个试次为一组,流程如图所示,在一个试次中,被试在观察完刺激后出现掩码,直到被试完成目标搜索和方向判断;之后掩码变为第二个刺激,并开始第二个试次...。在后续出现的图片中,刺激的构型可能是背景固定(目标和干扰子的位置完全相同,目标方向则是随机设置),也可能是背景变化。实验结果表明,背景变化条件下被试的反应时间要短于背景固定的,因此刺激构型可以从外周视觉中获得。实验过程如图2所示。

图2
(7)干扰子的物理属性(形状、颜色和数量)
(a)形状
在Chun和Jiang(1998)研究的实验2表明,干扰子的形状("10"和"01"vs"5"和"2")不影响背景线索效应的发生,这表明被试是学习刺激的构型,而没学习客体的视觉特征。而Jiang和Song(2005)认为,之所以得出如此结论是因为在内隐学习过程中干扰子的形状都是相同的。说白了就是干扰子的形状信息在搜索过程中并无任何作用,因此被试在搜索任务中并不需要注意到它们从而忽略了对它们的学习。为了验证该观点,研究者设计了两组对比实验。第一组实验的实验材料包括两种不同形状的干扰子,分别称为"L1"和"L2",目标为顺时针或逆时针旋转90度的"T"。实验过程分为学习阶段和和测试阶段,在学习阶段对被试呈现一些构型(包括干扰子和目标)以供学习,在测试阶段会提供构型并要求被试即快又准的找到"T"并且判断"T"的朝向。测试阶段的构型可以是学习阶段出现过的(背景固定),也可以是新的(背景变化)。为了验证干扰子形状对任务的影响,研究者设计学习阶段的干扰子为"L1"型,测试数据的干扰子可能为"L1"或者"L2"。因此得到两种不同的配对情况"L1-L1"、"L1-L2"。要注意的是,在学习阶段和测试阶段,背景固定条件下的构型都是相同的(只是"L1-L2"的干扰子形状不同)。实验结果发现,不论是那种条件,均发生了背景线索效应。即在学习阶段出现过的构型,即使测试阶段的形状不同,也发生了迁移("L1-L2")。该结论与Chun和Jiang(1998)的研究一致。但是,在他们的另外一个实验中,研究者让被试不但学习包括"L1"的构型,同时也学习"L2"的构型,这时干扰子的形状纳入了学习。实验发现,即使测试阶的构型在学习阶段中出现过,只要干扰子形状不同,学习就不会迁移,即没有背景线索效应。研究者认为,这时因为该实验中干扰子的形状纳入到学习的范围内,被试同时学习了干扰子形状和构型的配对,因此测试阶段干扰子形状和构型必须配对出现,背景线索效应才会发生。
(b)颜色
在Huang(2006)的实验中,实验刺激由一个"T"型目标和15个"L"型干扰子组成,"T"可能向左旋转90度,也可能逆时针。刺激的构型固定,是一个4*4的阵列,刺激与刺激之间的区别在于16个项目颜色的不同,包括红、绿、蓝、白、黑、黄、品红和青色。被试要做的就是找到"T"型目标并确定其方向,如图3所示。每个被试进行24组试验,每组24试次。在实验的第一组,所有刺激对被试来说都是不熟悉的。但在接下来的实验中,每组只有12个试次使用了不熟悉的图像,而其余12个试次使用了从第一个场景的重复旧图像(换句话说,有12个背景固定条件的刺激会在24组中重复出现,而其余的均为背景变化)。实验结果发现,随着被试进行了越来越多的试次,对背景固定条件的刺激成绩也越来越高,反应出背景线索效应。因为所有构型都是4*4的阵列,所以是颜色在发挥作用而非构型。

图3
(c)数量
Chun和Jiang(1998)在实验中设置了三种干扰子的数量条件,分别为8个、12个和16个,结果发现不论干扰子的数量是那种条件,都存在背景线索效应。因此干扰子的数量对背景线索效应没有影响。
二.注意模板
1.基本内容
要对场景中的目标进行搜索,首先,需要先形成搜索目标的"形状"(比如说你想从人群找找一个人,需要先知道他长什么样子)(该"形状"可以从长时记忆中提取,也可以从场景视觉中输入并保持在工作记忆之中),这个"形状"被称为注意模板或搜索模板。在搜索的过程在,注意模板需要维持在工作记忆中。然后,通过转移注意(可以通过眼动的方式)到不同的物体上, 并将这些物体的视觉信息分别与注意模板进行匹配,当匹配成功时, 便完成搜索任务(Vickery,King和Jiang,2005)。另外,正如偏好竞争模型中至上而下通路所描述的一样,视觉工作记忆中的注意模板可以使目标获得注意资源的竞争优势,以便使注意更好的选择目标。
Oliver等人(Olivers,Meijer和Theeuwes2006)采用记忆和搜索双任务范式对注意模板展开了研究。该实验按顺序分为三个阶段,记忆阶段,搜索阶段和记忆测试阶段,如图4。在记忆阶段,需要被试记忆一个颜色记忆项。然后记忆项消失并延时一定的时间。在记忆测试阶段(搜索阶段放在后面描述),展示了3个不同颜色的测试项,其中一个与记忆项相同,被试需要判断三个中哪一个与记忆项相同。直到完成记忆测试之前,被试需要将记忆项保持在工作记忆之中。该任务范式会在延时阶段中插入一个搜索任务。搜索任务会呈现八个圆圈干扰子和一个菱形目(它们围成了一个圆形),并需要被试即快又准的搜索到菱形并判断菱形的内部字母是M还是N。搜索任务有三种实验条件,第一种是相关条件,此时一个圆圈干扰子带有颜色且与记忆项的颜色相同,而其余的圆圈均为灰色;第二种是不相关条件,此时某一个圆圈干扰子存在颜色但与记忆的颜色无关;第三种是无干扰条件,此时所有的圆圈干扰子均为灰色。实验结果表明,比起其余两种实验条件,相关条件所使用的搜索时间最多。这是因为在搜索任务阶段,颜色记忆项需要保存在工作记忆中,这时该记忆项被动的成为了注意模板。当处于相关条件时,因为带有颜色的圆圈与注意模板匹配,因此它能自动的获得注意资源,同时对菱形目标的注意资源就会相应的减少,使搜索时间增加。

图4
2.客体工作记忆和空间工作记忆
注意模板存储于视觉工作记忆之中,视觉工作记忆分为客体工作记忆和空间工作记忆。而客体工作记忆又可以分为特征存储和客体存储两种情况,因此可以分别讨论。
(1)客体工作记忆
Oliver等人(Olivers,Meijer和Theeuwes2006)在实验中研究了特征与注意模板的关系。该实验同样采用了记忆和搜索双任务范式,但不同的是该实验的三个阶段均作出一定变化,如图5所示。在记忆阶段,分为了颜色记忆条件和形状记忆条件,即记忆项有颜色和形状两个维度,颜色记忆条件中只需被试记忆颜色,相反则记忆形状;在搜索阶段有四种相关条件,颜色相关条件是,除了一个特殊干扰子的颜色与记忆项相同而形状不同,其余所有的干扰子均为灰色圆形。形状相关条件是,除了一个特殊干扰子的形状与记忆项相同而颜色不同,其余所有的干扰子均为灰色圆形。颜色形状相关条件是有一个特殊干扰项颜色和形状均与记忆项相同,其他均为灰色圆圈。不相关条件是那个特殊的干扰子其颜色和形状与记忆项均不相同,其他均为灰色圆圈。在记忆测试阶段,根据记忆阶段是颜色记忆条件还和形状记忆条件,分别仅对颜色和形状进行回忆测试。实验结果显示,在颜色记忆条件下,只有当特殊干扰子的颜色与记忆项颜色相同时(颜色相关条件和颜色形状相关条件),被试的搜索时间才会变慢,而不管干扰子和记忆项的形状是否相同(形状相关条件和不相关条件)。同理,在形状记忆条件下,只有形状相同时搜索时间才会变慢而不管颜色是否相同。这表明,被试可以单独对客体的特征进行记忆并形成注意模板。

图5
Oliver等人(Olivers,Meijer和Theeuwes2006)的研究表明注意可以对客体的特征进行单独加工,但Gao(2016)的另外一项实验中却出现相反的结论。该实验在记忆阶段要求被试只记住记忆项的颜色而忽略其形状,在搜索阶段中,同样会出现颜色相关条件、形状相关条件、颜色形状相关条件、不相关条件。结果发现,形状相关条件和颜色形状相关条件的搜索反应时间同样比不相关条件的慢,这说明了虽然没有要求被试记住记忆项的形状,但其形状仍然被编码进工作记忆之中。
(2)空间工作记忆
在视觉搜索的过程中,注意会在场景中不断转移,一些先前被注意的场景位置可能会被保存在工作记忆中,以抑制注意再选择它们,从而优化视觉搜索效率,它被称为记忆标签机制(Peterson,Kramer,Wang和Irwin等人,2001)。研究者通过对眼动的记录发现,被试在搜索目标的过程中眼睛很少会再次注视已经被注视过的物体。
另外,在Downing(2000)的一项实验中发现,相比目标没有出现过的位置,被试对目标出现过的位置更为敏感。该实验有四步,第一步让被试记忆一张脸孔,第二步在屏幕左右两边分别呈现一张面孔,其中一张脸孔和记忆项相同,即符合项。另一个则不相同,即不符合项。第三步会呈现一个插槽,其位置可能处于符合项的位置,也可能处于不符合项的位置。并要求被试即快又准的判断插槽的开口方向。第四步是呈现一个脸孔,要求被试判断该面孔和记忆项是否一致。结果发现,当插槽位于符合项的位置时,被试的判断时间要明显快于不符合项的。这说明在第二步的过程中,被试的注意被符合项的位置所捕获,使其对该位置的反应要快于其他位置的。
3.单模板假说和多模板假说
(1)单模板假说
Olivers 等人(Olivers,Peters,Houtkamp和Roelfsema,2011)将视觉工作记忆中的表征分为注意模板和附属记忆项两种。其中,注意模板用于引导注意,且在同一时间只能有一个。附属记忆项则对视觉注意的影响不大,它处于意识的边缘,在同一时间可能有多个。van Moorselaar等人(van Moorselaar,Theeuwes和Olivers,2014)在实验中发现,当记忆项只有为 1个时,可以发现注意捕获现象(即与注意模板相似的客体可以捕获注意),而当记忆项是 2个、3个或4个时,则没发现到这种现象。因此,研究者认为注意模板只有一个。当视觉工作记忆需要存储两个或两个以上的客体时,如果没有优先指定某个客体,在视觉工作记忆的客体就会竞争注意,因此所有客体都作为附属记忆的存在,注意捕获现象就会消失。
(2)多模板假说
多项目模板假设是指工作记忆中可以存在多个模板,且它们均能引导注意的偏向。Fan 等人(Fan,Sun,Xu和Li等人,2019)同样使用了记忆和搜索双任务范式来研究这个问题。在记忆阶段,需要被试记忆一个或两个记忆项。在搜索阶段,呈现一个斜线线段目标和三个垂直线段干扰子。每个线段都被一个客体包围,共四个线段及四个客体,被试需要做的是即快又准的找到斜线。在三个干扰子的客体中,可能存在一个与记忆项相同,可能存在两个与记忆项相同(当记忆项有两个的时候),也可能没有一个与记忆项的相同。最后是记忆检测阶段,即呈现一个客体看是否属于记忆项。这些客体可以只有颜色维度,即颜色不同但形状都相同;也可以只有形状维度,即形状不同但颜色都相同;也可以是同时包括颜色和形状维度,图6分别显示了这三种情况的事例(分别是颜色维度,形状维度和颜色形状维度)。实验结果表明,对于纯颜色维度和颜色形状双维度,0个匹配情况的搜索时间最快,当有一个项目匹配的时候次之,而两个项目匹配的时候最慢。这说明视觉工作记忆中存在两个注意模板,它们对搜索任务均产生了注意捕获现象。但奇怪的是在纯形状维度中没发现两个注意模板的证据,即一个匹配和两个匹配的搜索反应时间相当。

图6(a)

图6(b)

图6(c)
4.目标模板和拒绝模板
注意模板可以分为目标模板和拒绝模板。到目前为止本节论述的一直都是目标模板,它存储着目标客体的相关信息, 并引导注意对其进行选择。干扰任务的或者与任务无关的都可以被视为干扰子,而拒绝模板则存储干扰子的相关信息, 使其抑制对干扰子的注意(Arita,Carlisle和Woodman,2012)。
关于拒绝模板的机制可能存在两种,一种是对干扰子的至上而下的抑制信息。被试在任务或行为过程中为了减少对注意的干扰,主动的对干扰子施加抑制。另外一种是至下而上的习惯机制,即当干扰子重复出现时,会导致视觉系统对其适应,从而减少它们对注意的影响。这是一种被动的过程,与是否存在任务和行为无关。
Turatto和Bonetti等人(Turatto,Bonetti,Pascucci和Chelazzi,2018)通过实验对后者进行了研究。该研究分为两个实验。在第一个实验中,试验过程如图7所示。第一步对被试呈现四个圆环,三个较细的,一个中等粗细,中等粗细的圆环位置固定;第二步会在其中一个较细的圆环上短暂呈现一个较粗较亮的圆环,作为干扰子的存在。这一干扰子在所有试次中有50%的可能性出现;第三步较粗较亮的圆环消失,并会在中等粗细的圆环上出现一个斜线作为目标,斜线可能是45度倾斜,也可以是-45度;第四步斜线消失,要求被试尽可能快速准确地报告目标线的方向是左还是右。在实验的过程中,要求被试始终注视着中央的原点。试验过程会重复400次,每一百次作为1组试次,共4组。实验结果显示,在第一组试次一开始进行时,出现干扰子的情况下的反应时间会比不出现干扰子的慢很多,随着试次的进行,两者之间的差距逐渐减少,约在几十次试次后两者差距变得很小并趋于稳定。在第二、三和四组试次继续保持稳定。第二个实验与第一个实验类似,但是将前两组试次的目标删减了,即斜线不呈现,被试无需做任何任务只需被动的观察。前两组被称为被动组,后两组称为主动组(即将需要判断斜线方向的称为主动)。对主动组(第三和第四组)测试被试的判断时间,发现虽然在一开始出现干扰子的情况会比不出现干扰子的慢,但仅仅过了十来次试次,两组的判断时间差距就变得很小并达到稳定(第一组实验需要几十次)。

图7
在第二个实验中,前两组是一个被动的观察过程,无任何任务,那么按照第一种观点(即拒绝模板是通过至上而下的抑制信息),那么前面执行的被动组过程应该对后续的主动组无任何影响。即在第二个实验,其第三组试次也应该经历几十次试次才能达到稳定。但实验给出了不同的结果,比起第一个实验,第二个实验趋近稳定所需的试次更少,只需十几次试次。说明被试在被动观察中(被动组,前两组试次),认知系统能够学习显著但不重要(与任务无关)的刺激特征,并降低注意系统对它的反应。换句话说,即"习惯"了干扰子的存在,从而在主动观察组中减少了对干扰子的注意。另外该研究还存在一个问题,即如果被试在被动组中适应了干扰子,那为什么转到主动组时还会有一个短暂的学习过程(即通过十来次试次适应)。研究者提出这是因为对干扰子的习惯是在被动组的旧环境中发生的,而在主动组时相当于换了一个新的环境,因此需要被试在主动任务的新环境中适应,只是适应成本有所降低(从几十次试次到十几次)(新旧环境的差别在于,是否存在判断任务)。
5.搜索中的眼动
眼跳分为内源性眼跳与外源性眼跳。外源性眼跳是由视觉刺激引起的眼跳,比如突然的闪光会引起不自觉的眼跳。内源性眼跳是由个体主动发起的眼跳,比如想要搜索桌子上的铅笔(任延涛,韩玉昌和隋雪,2006)。
引起外源性眼跳的视觉刺激一般是指视觉的物理属性,如颜色、形状、方向、大小、光泽、空间排列、深度等,而不同的视觉因素对眼动的影响是不同的。有很多研究对此得出了不同的结论,有的研究认为颜色对眼跳的影响最大(van Orden, Divita和Shim,1993),有的研究认为是方向(Foster和Westland,1995),有的研究认为是运动(Duncan,1989)...。任延涛和韩玉昌等人认为,造成这种差异的原因在于,由于研究设计不同。不论是那种特征,真正对眼跳产生直接影响的应该是,特征的可觉察最小差别。简单的说可觉察最小差别是指肉眼能感知到的两个特征值(同一维度)差异的阈值,比如灰度值100和101(范围为0-255),两个灰度相差仅为1,因此无法分辨。又如,长度101cm和11cm,两个长度的差异足以使肉眼区分。可察觉最小差别就是可区分和不可区分的分界线。研究者认为,物体之间某一个维度特征值的差别远大于该特征的可觉察最小差别时,该特征就会对眼跳产生较大影响。反之,则对眼跳很少产生影响甚至是没有影响。
对内源性眼动的研究有两点,一是眼动记忆,即大脑会对于已经注视过的目标施加一种眼跳抑制,使眼睛更趋向于新的目标(Gilchrist,2000)。第二种是返回位置,即当新目标位于先前注意过的位置时,眼跳重新指向该目标的反应时间会大大增加(Danziger,Kingstone和Snyder,1998)。