《智能的理论》全书转至目录****
不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。
一.场景定义和内容
1.场景定义
Henderson和 Hollingworth(1999)把人类的视觉研究分为三个水平:低水平的视觉,中间水平的视觉和高水平的视觉。低水平的视觉研究涉及视觉图像的深度、颜色、纹理结构等视觉物理特征的提取,以及图像表征的形成;中间水平的视觉研究涉及对物体外形、轮廓和空间关系的提取,这种提取不受物体名称和意义的影响;高级水平的视觉研究关注从视觉表征到物体的意义、知觉和认知的交互影响、视觉信息的短时记忆以及物体与场景的识别。而在高级视觉研究中,有关场景知觉的研究成为一个备受关注的领域(Henderson,2005;王福兴,田宏杰和申继亮,2009)
Henderson和Hollingworth(1999)在其综述中将场景定义为由空间分布合理的背景和离散的物体构成的真实环境的连贯图像。场景包括背景和物体两个重要的组成部分。场景中的背景是指宽广的、静止的表面和结构,比如:地板、墙壁、天花板和山等都可以成为背景。场景中的物体是指比例较小的不连续物体。对于场景中背景与物体的定义是相对而言的,没有绝对的标准限定。比如,一个办公桌在办公室场景可以作为物体。但是如果视野只关注这张办公桌,那它也可以作为一个场景,这时办公桌上的订书机或电话就成为了这个场景中的物体。大部分研究一般采用正常人视野能看到的环境作为选择场景的依据。比如校园和操场就是比较好的场景,而一盒火柴和从空中俯瞰城市就不是好的场景(王福兴,田宏杰和申继亮,2009)。
在各种不同的场景中,映入眼帘的虽然只是一些处于不同位置的纹理和色块(正如图像只是一些像素点组成),但如同从文字中提取语义信息一样,视觉系统可以从场景中"读"出这些"杂乱"信息的意义。这些意义包括场景的类别信息(如餐厅场景)、场景的空间布局(如餐厅上规则的排列了多个餐桌)、场景中某个客体的类别(如一锅红色的火锅)、客体与客体之间的位置关系(客人围着餐桌而坐)、客体与场景的一致性(如餐厅和一锅火锅)等等。
2.分类
场景有人工场景和真实场景之分。人工场景通常由一些简单图案组成,如符号或字母按照随机或规则的方式排列(Chun,2000)。通常意义下,场景一般是指后者,也是本节主要的论述内容。真实场景的含义是,一个背景和多个前景以有意义的方式组织起来的真实环境图像(Henderson和Hollingworth,1999)。真实场景可以分为室外场景和室内场景(如厨房、教室和办公室等),而室外场景又可以分为自然场景(山、湖泊和草原等)和人造场景(街道、公路和建筑等)。
场景也可以在不同层次上分类。自然场景、人造场景等是高水平上的分类,在基础水平上可以将场景分为森林、街道等,在次级水平上可以将场景分为高中学校、岩石山脉等。观察者在不同层级上进行分类的加工时间不同,其中次级水平的加工时间最长,但高级水平和基础水平加工时间的长短存在层级优先性争议。(黄晨晨,2019)
3.背景(田宏杰,2008)
场景是一种特殊的背景。有关背景的研究材料有三大类,第一类是简单的无意义图形或字母(图1(a)),比如在"L"中搜索"T",那么字母L就成为T的背景,或在其他色块中搜索中间带点的色块,那么其他的色块就对带点的色块构成背景;第二类是物体序列类背景,研究者将多个相关或不相关的物体摆放在一起,要求被试搜索或记忆其中的一个物体,那么其他的物体就对这个目标物构成背景(图1(b))。第三类是自然场景背景,物体处于自然场景中,这时场景的所有布置和其他物体的分布都对这个目标物构成背景(图1(c))。

图1
二.场景表征
从眼睛到大脑皮层,大脑经历了从低层的物理视觉信息(如线条、朝向、颜色、形状、大小和深度等)到语义等高层信息(场景类别、空间布局等)。人类之所以可以在极短时间内提取出丰富的场景信息,要归因于场景的层级性表征(苏珊珊,2021)。
1.层级树与朱松纯的图像概率语法
朱松纯(Zhu和Mumford,2007)使用类似于层级树的方式对场景进行表征,称为图像概率语法。为了说明什么是图像概率语法,先对层级树进行简单说明。它是一种包含数个节点和数条边的层次化结构,层级越高代表辈分越高,反之则越低。边用于连接上下两个节点,共享同一条边的两个节点是父子关系,上节点为父节点,下节点为孩子节点。最顶层的节点为根节点,非最底层的节点称为非终止节点或非叶子节点(如图2(a)的圆圈节点),最底层的称为终点节点或者叶子节点(如图2(c)的三角形节点)。这种层次化结构可以用在许多不同的领域,如句法树。其中,句子表示根节点,单词表示叶子节点,而名词词组或者动词词组(包括句子)则是非叶子节点(2(b))。

图2(a)

图2(b)
朱松纯的图像概率语法(图3)与层级树类似,最顶层的节点表示场景,之后对场景逐层分解,首先形成如图中的网格、立体等客体;这些客体又可以分解为一些平面图案,如矩形;矩形又可以分解为一些边。层级树的关系是父子关系,句法树的关系是组合(父子关系的一种)。图像概率语法中关系则比较复杂,包括:场景和客体的关系是语义组合(客体出现在场景的可能性,客体在场景中可能的位置);图形通过一些规则构成客体,如网格规则(数个矩形的排列构成网格)和立方体规则;最后,边可组合成图形。

图3
2.锚点预测理论及其表征
在场景中存在一些"锚点",其作用在于表征场景中客体之间的空间关系和功能关系,从而促进场景中的搜索任务。在Boettcher等人(Boettcher,Draschkow,Dienhart和Võ,2018)的实验中要求被试搜索某项指定的客体,如黑板擦。该实验有两种条件,一种是存在锚点(如黑板是黑板擦的锚点)(图4(b)),另外一种是不存在锚点(如将黑板换成世界地图)(图4(a))。另外,在实验的过程中会记录下被试的眼动情况。实验结果表明,当锚点存在的情况下,被试会先定位到锚点处并在锚点区域搜寻,从而迅速的搜索到目标客体。而当没有锚点时,被试会四处搜寻,搜索时间更慢。

图4(a) 图4(b)
描点预测理论将一个完整的场景表征为一个树结构(Võ,Boettcher和Draschkow,2019)。首先,整个场景被表征为一个根节点;其次,根据场景中的位置和功能,对各客体进行聚类,形成不同的客体组作为根节点的孩子节点;再次,每个客体组均有一个锚点,作为客体组的孩子节点;最后,将客体组的其他客体作为叶子客体。人们通过锚点,就能快速的搜索到同一个客体组相关的客体。如图5所示,浴室场景作为根节点;淋浴设备、马桶设备和洗漱设备作为客体组;浴缸、马桶和洗涮台分别为各客体组的锚点;上面的沐浴露、洗发水、纸巾和牙膏牙刷为客体。根据洗刷台(锚点),就能快速的找到牙膏和牙刷。

图5
三.场景识别(场景主旨)
1.特点
(1)快速性
人们具有快速识别场景类别的能力。在Potter等人(Potter,Wyble,Hagmann和McCourt,2014)的实验中,场景图片以13ms到80ms的时间呈现,并连续呈现6或12张,被试需要做的是判断目标场景是否出现在图片序列中。结果发现,即使只有13ms的呈现时间下,被试的准确率仍然显著的高于平均水平。而Thorpe等人(Thorpe,Fize和Marlot,1996)呈现图片仅20ms的时间,让被试判断图像是否出现了动物,同时记录下被试的脑电波。结果发现,对于包含动物的图像,被试只需检测到动物出现过的地方或者一些动物的显著特征就能作出判断,处理时间较快;对于没有动物出现的图像,被试需要加工完整张图像才能判断,即便大脑的加工时间达到150ms,仍然检测到有剧烈的脑电活动。
(2)注意力
快速处理通常对应着自动化处理,而自动化处理不需要或者只需要很少的注意力。一些观点认为,场景感知可以自动化进行,并且不需要注意力参与。2002年李飞飞及同事(Li, VanRullen,Koch和Perona,2002)进行了两组实验。一组是双任务范式,即要求被试并行处理两组任务。在双任务实验中,在要求被试对中央视觉的字符进行分类的同时,要求被试对呈现在外周视觉的场景进行分类。另外一组是单任务范式,只需进行对场景进行分类。实验表明了,这两组条件并无显著差异。因为注意资源是有限的,如果场景分类需要注意,那么第一组的成绩应该比第二组的低。因此研究者认为,完成场景识别不需要或者仅需很少的中央视觉注意。
(3)层级优先性
在场景识别文献中,很多研究者场景类别仅关注场景的粗略特征,例如"野餐",对于场景中的具体细节则不太考虑(Oliva,2005)。场景分类分为:高级水平(如"人类活动"、"建筑")、基础水平(如"野餐"、"大夏")和次级水平(如"上周五小明在西湖边的野餐"、"特朗普大夏")三个层次。不同层级上进行分类的加工时间不同,其中次级水平的加工时间最长,但高级水平和基础水平加工时间的长短存在争议。一祌观点是基础水平优先,认为在场景识别的过程中,基础水平分类优先发生。例如观察者先将一张场景图片分类为森林,然后再将图片分类为自然场景。另一种观点是高级水平优先发生。(黄晨晨,2019)
(a)基本水平优先
对词汇概念的研究发现,人类对基本概念的通达先于对上级概念的通达(19-6:范畴理论)。后来这一观点被引申到场景识别的加工上。李飞飞等人(Fei-Fei,Iyer,Koch和Perona,2007)给被试短暂呈现场景图片,然后让被试回忆看到的内容,来探究观察者在对场景的一瞥中可以获取哪些信息。结果发现,被试更多地使用基础水平类别的场景词汇,而不是高级水平类别的。
(b)高级水平优先
近年来,许多研究发现了与基础水平优先相反的结论,认为高级水平分类发生在基础水平分类之前。在一项实验中,要求被试尽可能快地分别对场景进行高级水平或基本水平的分类。结果发现,高级水平判断任务的耗时(380~390 ms)显著小于基本水平(400~460 ms)(Joubert,Rousselet,Fize和Fabre-Thorpe,2007;Macé,Joubert,Nespoulous,Fabre-Thorpe和Fize,2009)。
2.影响因素
(1)颜色信息
0liva和Schyns(2000)发现颜色信息在特定情况下才会对场景识别产生影响。在实验中他们使用了三种材料:正常图片、无色场景图片与非正常颜色图片(如将红色变为黄色,蓝色变为绿色...),当观察者完成对自然场景的分类时,对正常颜色的表现高于无色与非正常颜色的;而对于人造场景(注意人工与人造的区别)三种刺激的表现却并无差异。这是因为自然场景中颜色具有高规律性,如在森林中绿色是出现概率极高的颜色。但在人造场景中,由于人类可以跟随自己的意愿创造场景颜色,因此不存在一种固定的、具有诊断性的颜色信息。
(2)视野区域
Larson与Loschky(2009)研究了中央视觉和外周视觉与场景识别的关系,研究中他们对场景图片的中央进行了遮蔽,结果发现即使当中央盲点扩大到5°视角时,外周视觉仍能提供足够的信息来完成对场景的识别。这些表明外周视觉对识别场景主旨来说十分必要。
3.场景识别的进程
不同大小的注意力对应着不同层次的意识和不同层次的特征水平。较少的注意处在较低的意识水平,使用较低层次的特征;而较多的注意处在较高的意识水平,使用较高层次的特征。2007年,李飞飞等人(Fei-Fei,Iyer,Koch和Perona,2007)对场景的识别时间进行了测量。这个实验给被试呈现一些图片,呈现的时间范围从27毫秒到500毫秒。在实验中发现,当呈现时间只有27毫秒时,被试者仅能分辨一些较亮或较暗的区域;当时间增加到67毫秒时,被试能识别出客体或场景的大致轮廓(如房子里面的一间房);当时间为500毫秒时,被试能识别出一些细节和较小的物体。可见,我们的视觉首先是对场景的一般描述(场景要点)进行感知,然后才是细节。
以下这一实验更是进一步的揭示了视觉从粗糙到精细的过程。图像可以被看作为一种二维信号。一维的信号是由不同频率的一维信号(频率随时间变化)叠加而成,而图像同样可以分解为不同频率的二维信号(频率随图像空间坐标变化)。可以将图像概括为二维的低频信号和高频信号的叠加(将各个频率划分为低频和高频)。低频信号主要表示图像的主体轮廓而忽略很多细节,它比原图更为模糊和粗糙;高频信号则主要表示图像的边缘,包含图像的更多细节。Schyns和Oliva(1994)在实验中将一个场景的低频成分和另一个场景的高频成分叠加起来,如图是由一张大夏照片的低频信号和一张公路照片的高频信号合成(如图6所示)。该实验设置了不同的呈现时间,要求被试在不同的呈现时间下判断叠加图片的类别。实验发现,当呈现时间只有30 ms时,被试更依赖于低频信息对图片进行分类,如将图分类大夏;而呈现时间为150 ms时,被试更依赖于高频信息对图片进行分类,如将图分类公路。

图6
4.认知机制
(1)以客体为中心
早期研究(Friedman,1979)认为,场景的类别可以根据场景中的客体进行分类。这类加工方式被称为"以客体为中心",而这些特殊的客体被称为诊断客体。比如,通过看到了冰箱,便可将场景感知为厨房,这时冰箱属于诊断客体。而看到了床,便可将场景感知为卧室。李飞飞等人(Fei-Fei,lyer,Koch和Perona,2007)通过给被试短暂呈现场景图片,并让被试回忆看到的内容。结果发现,被试所回忆的内容,包含了场景中客体的名称、客体的具体描述以及客体之间的关系,由此研究者认为获取场景中的客体信息是提取场景主旨的关键所在。
但这个观点也受到了许多质疑。如果场景识别是以场景中物体语义加工为前提,那么物体数量越多场景识别所需的时间越多。但是很多日常体验和研究结果都发现,场景识别的速度和准确性不受场景物体数量的影响(Davenport和Potter,2004)。
(2)以场景为中心
有研究表明,场景识别有时并不依赖单个客体,仅对场景中整体属性(如纹理、颜色、体积或者空间频率)进行分析就足以判断出场景的类别。这类依赖场景整体特征的识别理论被称为"场景为中心"(Schyns和Oliva,1994),而这些特征维度则被称为"诊断维度"。生活中很多例子可以用于说明,比如当整体画面的黄色和蓝色呈现上下分布时,仅凭颜色特征(诊断维度)就能使我们迅速的感知到这是海滩,而无需识别出当中的沙子和海浪。通过垂线结构的特征,就能使我们感知到这是城区的建筑而无需先感知到一栋栋大夏。有时我们并不需要先"看到"树,然后再"看到"森林,相反对森林的感知要先于对树的感知,而该诊断维度就是森林的纹理。以客体为中心的理论是以客体的语义为基础,因此属于视觉加工的后期;相反以场景为中心则是以一些视觉特征为基础,属于加工的前期。
(a)空间包络模型
Oliva与Torralba(2001)认为,对场景的识别可以在不识别场景物体的条件下进行。通过对全局的图像特征进行提取,就能很好的对场景进行表示,从而进行分类。全局的图像特征又被称为空间包络,Oliva与Torralba在研究中列出了5种空间包络属性:
自然度:自然度越高的场景纹理化越高,如海洋和森林;人造景观着充满着水平线或垂直线。
开放度:表示客体的多少。海洋具有较少的客体,而森林的客体则较多。
粗糙度:低粗糙度表示平滑的并具有较少颗粒的场景,如海洋;高粗糙度的如森林。
扩展度:表示平行线的汇聚,如铁轨等。
崎岖性:崎岖性是指地面相对于地平线的偏差(例如,从水平平坦的地面到地面崎岖的山地景观)。崎岖不平的环境在图片中产生倾斜的轮廓,并隐藏了地平线。大多数的人造环境都建在一个平坦的地面上。因此,崎岖不平的环境大多是自然的。
(3)场景的联结加工假设
场景联结加工假设有两点核心内容。首先,大脑储存了已形成联结的重要场景信息,而对场景的加工则是激活并提取这种联结信息的过程;其次,这种联结信息可以是场景的整体特性、场景中物体间的关系等视觉信息,也可以是听觉或其他感觉通道的(Aminoff 和Tarr,2015)。例如,桌子和椅子在场景中经常一同出现,大脑皮层可以将这两种刺激形成语义联结并储存在长时记忆中,当新出现这种联结关系时,便会对长时记忆的这种语义联结进行激活,利用这种联结完成对当前场景的加工。
5.神经机制
(1)前馈模型
鉴于场景类别能在很短的时间内被识别,研究人员提出了前馈模型(至下而上通路)。生理学的相关研究表明,视觉信息从视网膜到V1区(初级视觉区)大约只需40到60ms;在60到80ms的时间内,信号经过腹侧通道到达V2和V4区;在80到100ms的时间内(如图7),视觉信号到达下颞叶皮层,并在该皮质对特征进行初步整合(Serre,Oliva和Poggio,2007)。对于至上而下的反馈信号,一些研究认为需要150到170毫秒才能反馈到早期的视觉区,而另外一些研究甚至认为这一时间是200到300ms(Wyatte,Jilk和O'Reilly,2014)。上述研究表明,对场景的分类在刺激呈现的150ms内便能完成,而至上而下的反馈信息很难在这么短的时间内形成。因此推断场景识别是通过视觉的前馈信息实现的,即前馈模型(Serre,Oliva和Poggio,2007)。
(2)反馈模型
然而,并不是所有的反馈信号都是由高级脑区发起的。Lamme(2006)在研究中发现,在腹侧通路中存在一些局部范围内、距离较短的循环加工过程,如图。因此,无法完全排除反馈信号对场景分类的作用。Camprodon等人(Camprodon、Zohary,Brodbeck和Pascual-Leone,2010)在要求被试完成视觉分类任务的同时,使用TMS技术(经颅磁刺激,即利用脉冲磁场作用于中枢神经系统,影响脑内代谢和神经电活动的技术)在不同的时间点上干扰V1区的活动。实验结果表明,在100ms和220ms的时间点上TMS对被试的任务成绩产生显著影响。因为前馈信号在V1区的处理时间(40-60ms)远低于100ms和220sm,所以在这两个时间点上V1所处理的信号不可能是前馈信号。Wyatte 等人(Wyatte,Curran和O'Reilly,2012)认为,100ms大约是下颞叶皮层的完工时间,因此这个时间点的干扰信号可能是来自于下颞叶皮层的局部反馈,而 220ms 时的干扰则是来自于自于高级皮层的反馈信号。

图7
四.场景中的物体分类
1.语义一致与空间协调
Palmer(1975)研究了场景对物体识别的影响。在其实验中,首先对被试呈现一个场景,如图8中的厨房,然后快速的呈现一个客体,如图中的面包、邮箱和鼓的其中一个。实验要求被试判断出所呈现客体的类别。当客体与场景的语义一致时,即该客体出现在该场景是合理的,如面包出现在厨房,被试的正确率达到80%。而客体与场景的语义不一致时,如邮箱和鼓出现在厨房,其准确率只有40%。
图9(a)显示的是由艺术家Haro创造的一张图片,表示不完整但可识别的人物。图(b)左边显示的是一个被手拿着的卡片,当它单独出现时很难将其辨认。如图(b)中间,此时如果将该物体放在一个头部的面前,那么将容易将其识别。客体之间的相对位置合理被称为空间协调。相反如图(b)右边,如果头部放置的位置不适当,即位置不协调,这种场景促进识别的效果将被削弱(Bar,2004)。可见,如果一个物体很难识别时,如果有另外一个相关物体,且放在相关的位置时,或者说空间协调时,可促使成功的识别。

图8

图9(a)

图9(b)
在一些关于物体与物体之间的研究中,Biederman和他的同事(Biederman,Blickle,Teitelbaum和Klatsky,1988;Biederman,Mezzanotte和Rabinowitz,1982)在物体之间意想不到的组合条件(例如,带消防栓的茶壶)和物体之间意想不到的空间关系条件(例如,邮箱顶部的消防栓)中,发现这种违反"常理"的关系不利于场景和物体识别。Green和Hummel(2006)发现,具有功能关系的对象(例如,水罐面向杯子)比没有功能关系的对象(例如,水罐背向杯子)更容易被识别。
2.背景效应
背景效应是指物体所处于的背景对物体视觉搜索和识别所起的作用(Henderson和Hollingworth,1999)。
一些研究发现,当物体独立出现时,对他们的识别速度反而比物体处于一致的场景中要快一些。但是,也很难通过这些研究来否定背景对物体识别的作用,首先,在一个场景中识别物体时,需要先将物体从场景中分离出来,这需要额外的加工,即使在一致的场景中也是如此;另外,在场景中识别一个物体时,被试可能会分一些注意在场景中,这也可能会导致识别的速度减慢(Murphy和Wisniewski,1989;Davenport和Potter,2004),所以被试识别速度的减慢不一定是由于物体知觉速度本身减慢造成的。在一项研究中分别将物体置于一致的场景和无意义的场景中(无意义场景同样会造成额外加工和分心),结果发现在一致场景中物体的识别更快,这支持了背景对于物体识别的促进作用。(田宏杰,2008)
Biedemman(1982)研究中发现自然场景可以在五个方面为物体的识别提供规则:支撑(大多数的物体是有物理支撑的,而不是漂浮的);相互位置(比如,有的物体在另一物体前时,会对另一物体有遮挡);可能性(场景中包括这一物体的可能性,如打印机出现在厨房的可能性较低);位置(一些物体在一些典型场景中的可能位置,如鞋子一般出现在场景下方);大小(我们所熟悉的物体在相对位置时视觉上的大小,比如一头牛在近景中是非常大的,而在远景的草地上是非常小的)。研究发现,当物体在场景中违反了这些规则时,被试在加工时可能会变慢,更容易出错。这类研究表明场景的信息可以在很早期的时候被抽取,并且以一种"自上而下"加工的方式影响我们对单个物体的知觉。
3.场景促进模型
鉴于场景对客体视觉的快速促进作用,Bar(2004)提出了场景促进模型。该模型如图10所示,图像信号在经过V1区和V4区后,一个低频信号从中被提取出来,并被投射到PFC(前额叶皮层)和PHC(海马旁皮质)中。PHC可以从低频信号中对场景进行分析,即激活一个最可能的场景类别,如沙滩。随后该场景类别被投影到ITC(颞下皮层)。其中根据激活扩散的原理,场景可以激活一组与场景语义一致的物体,如沙滩上的沙滩椅和沙滩伞。与此同时,PFC从相同的低频信号中提取中央凹或注意力所选择目标客体(从低频信号而来,因此目标客体也是低频的)。随后给出一组关于该对象的可能的候选类别,如蘑菇、大树、沙滩伞、雨伞等,并将该组候选类别传至ITC。在ITC中,场景相关联的客体(沙滩椅和沙滩伞)与目标客体的候选类别(蘑菇、大树、沙滩伞、雨伞)之间的进行交集运算,最终得出目标对象最可能的类别,如沙滩伞。从早期视觉区中,还有一条通路达到ITC,这条通路传递图像的高频信号,对目标客体进行细节补充。

图10
转移目光或注意力时会使PFC将其焦点转移到其他兴趣对象上,从而导致一组新的目标客体候选类别被传送到ITC。然而,假设场景在眼动过程中没有变化,从PHC投影至ITC的场景类别信息就会很少变化或者不变。此外,在该场景中第一个关注的对象(PFC第一次传递的客体候选类别)最为重要,它在某种程度上引导了对整个场景的识别。
4.位置特效性(田宏杰,2008)
位置特效性是指在视觉再认中,当物体出现在场景原来的位置时再认成绩要好于出现在其他位置的再认成绩(Hollingworth,2006)。Hollingworth(2006)在研究中让被试看一个场景20s,然后呈现两个选择让被试判断哪张图片中物体与原图中是一样的,其中目标物的位置有两种条件,一种是与原图中的位置一样,一种是与原图的位置不同。如果物体的信息是与场景的空间位置绑定的,那么当物体出现在原有位置时会比出现在其他位置时对物体的表征提取更有效。这一研究结果表明位置相同条件下对物体的视觉再认的成绩好于位置变化条件下的再认成绩。
(1)参照系
提到位置空间就离不开参照系。那么位置特效性的参照体系是以什么为参照点的呢?在一项以物体序列为材料的研究中发现,物体视觉记忆的表征是相对于其在物体序列中位置,而不是绑定于其在原图中的绝对物理位置的。研究人员让被试先看有六个物体的物体序列图片4s,然后让被试做变化探测任务,判断后面出现的图片中目标物是否与原图中的一致。研究人员操纵了物体序列位置和目标物的位置。一共四种实验条件,物体序列位置不变,目标物位置不变;物体序列位置不变,目标物位置变化;物体序列位置变化,目标物位置不变;;物体序列位置变化,目标物位置变化,如图11。结果发现,无论物体序列是否移动,目标物在物体序列中的相对位置不变的情况下,物体的视觉再认的成绩较好,而与物体是否在原图中的绝对物理位置无关。

图11
(2)解释理论
(a)客体档案理论
客体档案理论认为当注视指向一个物体时,视觉特征被绑定为一个整体的物体描述。除此之外,还会形成一个暂时的表征,即物体文件,它能将对物体的视觉表征和它在空间地图中的位置联系起来(9-16:视觉特征整合)。这一理论中物体文件中所保存的就是物体的视觉特征和它在空间地图中的位置,所以在视觉记忆提取时可以提取出某一位置的物体的视觉短时记忆表征,从而对该物的再认任务(或其他认知任务)产生影响,产生位置特效性。这个理论充分肯定视觉短时记忆中位置的作用,但这一理论忽视了在长时记忆中位置对于物体视觉记忆提取的作用。
(b)视觉记忆理论
视觉记忆理论认为如果在一次注视中没有注意的参与,只能在视野中产生视觉感觉表征(感觉记忆)。当场景被移走,或知觉加工被其他行为打断,对于物体的感觉残留会迅速削弱,而且这种表征不能和其他注视中获得的视觉表征结合。然而,注视的同时有注意的参与,那么对注视的物体能产生较高水平的物体视觉表征,而且它能在视觉短时记忆中得以巩固。这时保持在视觉短时记忆中的视觉表征包含很多关于物体细节的信息,足以对物体的形式内变化和方向变化加以识别(Hollingworth和Henderson,2002)。另外,在视觉短时记忆中激活的对物体的视觉表征与场景表征中的位置相联系,之后将这种表征储存在长时记忆系统中。当后面再注意或注视其他物体时,关于这些其他物体的视觉表征又会在视觉短时记忆中被保持,然后根据其位置整合到长时信息中。总的来说,视觉记忆理论不只包括视觉短时记忆,而且这一记忆与位置的作用结合后,可以转化到视觉长时记忆之中。在再认任务中(或其他认知任务),可将之前注意过的物体在长时记忆中提取出来,并将之与当前知觉表征进行比较,因此任务受注视时物体位置的影响。
五.场景中的物体搜索
1.语义一致与空间协调
与简单的人造场景不同,真实场景有其自身的语义,因此除了至下而上的刺激,还有至上而下的语义也会影响着真实场景中的客体搜索。
场景中的客体应是语义一致的,如面包出现在厨房是合理的,邮箱和鼓出现在厨房则是不合理的,船只航行在海面上而非天上...。在场景中客体也应该出现在合理的位置上,即空间协调。如花出现在花瓶中是空间协调的,鞋子放在桌子上是空间不协调的。
2.表面指导框架
在视觉搜索行为中,一个大致的空间结构可以以一种前瞻的机制选择场景区域,将注
视引向物体最有可能出现的区域。如Torralba等人(Torralba,Oliva,Castelhano和Henderson,2006)的研究表明,当要求被试在一个客厅场景中搜索杯子时,被试的注视点一般落在图片的中下部支撑面的上面;而要求被试在这个场景中搜索墙壁上的挂饰时,被试的注视点落在图片中上部的位置。
Pereira 和 Castelhano(2019)在研究中将场景划分为三种区域。下层区域,如一个客厅的地面和垃圾桶所处的地方;中层区域,如桌子、柜子和电脑等客体所处的地方;上层区域,如天花板和挂灯所处的地方。实验中发现,当要求被试搜索场景中某一物体时,被试会优先搜索相关位置。如要求被试搜索挂灯,被试会在上层区域进行搜索。该原则被研究者称为表面指导框架。
3.背景引导模型
Torralba等人(Torralba、Oliva、Castelhano和Henderson 2006)提出的背景引导模型中,利用贝叶斯理论对物体搜索进行了公式化。在模型中,输入的为图像I。因为模型所执行的是物体搜索,因此模型的输出为搜索目标是否存在于图像之中O,当O为0时表示图像不包含目标,而O为1时则表示包含;同时,还会输出目标所在的位置或者坐标X。因此,搜索概率可以表示为p(X,O|I)。在图像中,其整体信息为背景信息G,而通过眼动或调整注意可以提取图像的局部信息L,其中局部信息L所在的位置为X,因此L也可以表示为L(X)。此时,搜索概率可表示为p(X,O|G,L)。根据贝叶斯理论,当目标处于X时,可得:

添加图片注释,不超过 140 字(可选)
该公式有四项。对于1/p(L|G)项,它表示的是局部特征在全局图像特征中的突显程度,它是一个至下而上的信息。具体的说,如果p相对于G是突显的(如一朵红色的花出现在黄色的花丛中),那么p(L|G)就会很小(一朵红色的花出现在黄色花丛的概率很小),而1/p(L|G)就会很大,从而吸引注意。p(L|O=1,X,G)表示,搜索者关于目标外观的一种知识,并将其用于搜索。如果该区域的局部特征符合目标外观的知识,则加强对该局部区域的注意,其余区域的注意减弱。简单点说,它是一种使用模板引导注意的突显地图。P(X|O=1,G)表示在提供了该背景的情况下,关于目标应该处于何处的先验知识。比如,汽车总是会出现在地面上,飞机总是会出现在天空上,油锅总是会出现在灶台上。P(O=1|G)则提供目标出现在该场景下的可能性。如厨房出现邮箱或打印机的可能性几乎为0。
4.目标获得模型
Zelinsky(2008)提出了基于特征地图来控制眼动搜索的目标获得模型。该模型大致要点主要有如下几点:
创建或更新目标图:光线进入视网膜后,会生成一组特征图,每一张特征图由一个特征察觉器(9-1:视觉通路)通过提取特征构成,它表示场景中各个位置存在该特征的可能性。具体的说,如果特征图的某个感受野存在一个较大的激活值,则代表场景图像在对应位置存在该特征。相反则表明场景图像的对应位置不存在该特征。如果是中间值,则表明不同程度的存在该特征,一个例子是黑色察觉器提取图像特征,如果某一位置的值大小是中间值,则场景图像在该位置即不为黑色,也不为白色,而是处于中间程度的灰色。一个客体由多种特征构成(形状、颜色、纹理等),而有多少特征察觉器就有多少特征图。因此,当一个客体被检测到时,其所包含的特征图在对应的感受野都会被激活。在这组特征图中,将同一感受野的多个激活值提取出来,便形成了该处感受野的特征向量,这组特征向量可以表征该位置的局部图案。另外,场景中每个位置都能得到一个特征向量。因为客体是由多种特征组成,因此匹配模板也会有特征向量。用匹配模板的特征向量分别与场景各感受野的特征向量匹配(即计算向量的相似度)。然后就得到了一张相似性地图,称为目标图。该图表示场景中各个位置存在目标的可能性。并给出了目标所在位置的建议,通常会有几个候选项(即几个相似度比较大的地方)。(这部分原理与引导搜索理论的一致,仅用不同的方式表述)
候选项阈值:那什么能称得上候选项呢?场景中每个位置(项目)都有一个相似度,如果该相似度高于某一阈值时,则属于候选项。反之则不是。该阈值也被称为候选项阈值。
抑制地图:在搜索过程中会对候选项进行逐个的注视,如果该候选项不是目标客体,则会在目标图中对其抑制,并注视及判断下一个候选项;如果该候选项匹配成功,则完成搜索。抑制候选项即降低目标图在该处的相似度,表明该处的客体不属于目标客体。这样做的好处是,避免下一次继续搜索该处从而提升了搜索效率。
中央凹与外周视觉的问题:上面所论述的是整个场景图像一样清晰的情况。而实际上,眼睛的每个感受野的清晰度是不同的。中央凹是视觉最为清晰的地方,而外周则较模糊。外周视觉因为被模糊的原因,各处位置的匹配值都比较小(但高于阈值)。因此,不能排除外周视觉中相似值较小的客体是目标客体。想要确认它们是否目标客体,需要转移视线并使其置于中央凹之中,当获得较大相似度时便能确认它们是目标客体。
眼动的推荐位置:如果当前的候选项不是目标,则执行眼动搜索下一个候选项,并确认其是否目标(要确定候选项是否目标,需要通过注视)。在眼动前,会产生一个眼动的推荐位置。这个推荐位置的依据是,目标图中所有候选项的加权平均距离。可以用公式PHP=∑Si*Xi表示,其中PHP表示眼动的推荐位置,Si表示第i个候选项的权重,该权重由目标图的相似度决定,Xi表示表示当前注视点到第i个候选项位置的位移,∑表示对所有候选项的位移求和。一般来说,当候选项特别多时,推荐位置倾向于视觉场景的中央(类似于统计学上的中心极限定理)。这种平均行为与分布式编码或种群编码的神经计算原理也大致一致。Kaufman和Richards(1969a;1969b)就发现了,当观察者试图将目光转移到两个稍微分开的物体的其中一个时,他们的眼睛往往会落在两个物体之间的位置。相反,如果候选项较少,那么推荐位置倾向于最大相似度的候选项。极端情况下,当候选项只有一个时,推荐位置与候选项位置重合。
眼动的移动阈值:一般来说,当候选项越多的时候,即干扰物越多,人们的搜索就越谨慎,以免错过目标。这体现在观察者用很小的移动幅度进行眼动。而候选项越少的时候,观察者使用更大的眼动幅度扫视,以使目光能更迅速地注视到可疑目标。在该研究中,作者使用了一个眼动移动阈值(即所允许的眼动移动的最大幅度)来表征这种谨慎程度,而该阈值是由候选项的多少决定,也可以说是由目标图的相似度和候选项阈值共同决定的。
眼动策略:眼动策略需要结合推荐位置和移动阈值。一般情况下,最开始的候选项阈值设置为0,场景搜索从场景中央开始,这时凝视处与推荐位置一致(因为候选项特别多,所以推荐位置趋向于场景中央,眼睛也因此会转移到中央)。之后候选项阈值逐步增大,候选项数量便会逐步减少,从而使推荐位置慢慢离开凝视处并趋向于最大候选项。当推荐位置达到眼动移动阈值时,便将眼睛转移至推荐位置。以上是第一轮循环,如果没找到目标会进行第二轮。以当前视点为基础重新计算眼动移动阈值。候选项阈值继续增大,从而使推荐位置继续趋向于目标。当推荐位置到达移动阈值时发生眼动。如此类推,直到最大候选项落入中央凹。如果候选项阈值变得很大时,候选项可能会被完全排除,这时需要减少候选项阈值,使一些候选项重新被激活。
5.背景线索效应
(1)内隐or外显
Brockmole和Henderson(2006)对真实场景中的背景线索效应(9-21:视觉搜索)进行研究。与简单人工场景相同,真实场景同样存在背景线索效应;而不同的是,在真实场景背景线索的习得更快(只需呈现2~3次就能习得),搜索时间也更快。
在搜索任务结束后(Brockmole和Henderson,2006),对被试呈现一些图片进行刺激再认测试,即让被试判断所呈现的图片是否在搜索任务中出现过(测试图片可能在搜索任务中出现过的,也可能是新的),如果出现过则将目标从图中找出来。结果显示,对于背景固定条件下的刺激,被试的回忆成绩会更好,从而说明被试是外显的习得场景布局。
有研究证明了对真实场景的学习是内隐的(Makovski,2017),简单人工场景的学习也同样有研究认为是外显的(Shanks,2010)。可见对于背景线索效应的习得存在分歧。之所以会出现这种现象,我认为原因在于内隐和外显并不是二元对立,而是一种程度的问题,正如意识和潜意识一样。绝对的内隐和绝对的外显处于两个极端,而它们中间还存在很多中间状态。如"这个场景有点熟悉,好像见过,又好像没见过",即不属于外显,也不属于内隐,而处于两者之间。研究者使用了不同的实验材料,实验设置和刺激背景,使被试的学习处于"内隐-外显"维度的不同"值"上,从而造成不同的结论。
(2)局部or整体
Brockmole等人(Brockmole,Castelhano和Henderson,2006)在研究中发现,整体不变而局部变化(如房间不变,而放茶壶的茶几变化)的背景线索学习速度,要比整体变化而局部不变(如房间变化,而放茶壶的茶几不变)的要快。这表明在真实场景中,不论是局部还是整体都能习得背景线索,但是整体的作用会更大。在真实场景中,整体信息与局部信息属于不同的加工水平。整体信息处于视觉的初级加工阶段,因此能更加迅速的预测目标。如果仅使用整体信息就能完成对目标的搜索,便不会对局部信息分配注意。如果整体信息无法完成,那么就需要进一步的进行精细化加工,此时会使用局部信息进行搜索。
(3)底层视觉特征or高层语义
(a)底层视觉特征
在简单人工场景下Huang(2006)证实了背景线索效应受到了颜色的影响。而Ehinger与Brockmole(2008)在真实场景的实验中得出了相反的结论,该实验包括两种条件,一种是正常颜色条件,或者说原图。另外一种是非正常颜色条件,即对图像的颜色进行变化,如将天空或海水的蓝色转为黄色和将沙滩的黄色转换为蓝色,如图12。实验表明,两种条件下均产生了背景线索效应,即在真实场景下背景线索效应不受颜色影响。而Mack和Eckstein(2011)则认为,底层视觉特征是否会在真实场景下产生背景线索效应,在于被试在学习阶段是否有注意到它们。即在学习阶段,当被试需要使用到底层特征进行任务时,这些特征才会产生背景线索效应的迁移。

图12
(b)高层语义
真实场景与简单人工场景的一个不同之处就在于真实场景充满着语义信息。而这些语义信息可以帮助我们快速的找到客体。Mack和Eckstein(2011)通过对眼动的追踪发现,当要求被试在场景中搜索一个物体时,大部分被试都会优先注视那些常与目标共现的物体。如要求搜索耳机,通过眼动仪发现被试注视随身听的概率会比其他物体(如花瓶)的高。鲜花与花瓶、练习本与笔等物体常常两两出现,这种在生活中物体经常配对出现的可能性被称为物体共现性。而物体共现性在一定程度上能影响被试的搜索成绩。
Pomplun和Hwang(2010)从目标表征的具体程度和语义位置的符合程度两个维度对真实场景搜索进行了研究。一个客体的表征可以使用文字,也可以使用图片,文字是一种抽象表征,而图像是一种具体表征。在视觉搜索前,需要告知被试搜索目标是什么,并形成目标模板。该研究发现,当使用图像表征给被试呈现需要搜索的目标时,被试在搜索过程中的效率会比文字表征的高。因此,目标越具体时,搜索效率越高。另外,该研究还发现,当目标的语义位置不符合时(即它出现在它不该出现的地方的时候),如高跟鞋出现在桌子上而不是地面时,搜索效率会变慢。研究者认为,这是因为被试能够在搜索前形成有关目标的预期位置表征,当场景与该表征越符合时,即语义位置越符合时,搜索效率就会越高。
5.自然场景作用的可能成分分析(田宏杰,2008)
自然场景作用的可能成分包括大轮廓背景,如背景的几何结构(如墙壁、地板、天花板、桌面)和场景中其他具体的物体。那不同成分所起的作用有什么区别呢?
(1)大轮廓背景------整体场景
在大轮廓背景中,整体场景对物体的作用和周围物体对物体的作用是不同的。Boyce等人(Boyce,Pollatsek和Rayner,1989)考察了语义一致性效应是来源于整个场景的信息还是来源于周围分散的物体的信息。他们在研究中操纵物体与整体场景和与周围物体间的一致性关系。即物体与整体的关系一致还是不一致、与场景里的其他物体的关系一致还是不一致,这样生成了四种条件,即,一个洋娃娃可能与其他一些会出现在卧室中的物体一起出现在卧室中,与其他一些会出现在冰箱中的物体一起出现在卧室中,与其他一些会出现在卧室中的物体一起出现在冰箱中,与其他一些会出现在冰箱中的物体一起出现在冰箱中。结果发现了与整体场景的一致性影响物体探测的敏感性,但与物体间的一致性不影响物体探测的敏感性。所以他们认为是整个场景而不是周围邻近物体促进了物体的识别。
(2)大轮廓背景------其他物体
虽然Boyce等人(Boyce,Pollatsek和Rayner,1989)的研究中否定了邻近物体对于单个物体识别的作用,但在其他多个物体呈现在无场景的条件以及对场景长时间观看的研究中邻近物体的作用却得到了证实。Hotimann和Sebald(2005)以字母矩阵为材料的研究中,发现如果目标字母总是与另一字母同时出现,那么这一邻近字母会对目标字母的探测产生影响。
6.目标模板与场景在搜索中的交互
在真实场景的搜索中,目标模板为搜索行为提供行为目标,场景为搜索提供包括物理视觉特征和语义等信息。而一个关键的问题在于如何协调利用这两种信息?研究人员提出了两种可能:
第一种是目标模板和场景在搜索任务中是独立运作的,作用是相加的(Malcolm和Henderson,2010)。在搜索过程中,首先利用场景中的信息引导视觉指向场景中可能包含目标客体的区域,然后再利用目标模板确认该区域的客体是否目标。
第二种是目标模板和场景在搜索过程的作用是交互的(孙琪和任衍具,2014)。这类模型认为视觉首先利用目标模板和场景引导视觉指向与目标客体相似的区域以及场景中可能包含目标客体的区域,然后利用目标模板确认该区域的客体是否目标。具体的说,一个视觉搜索行为可以先后分为如下三个阶段(Castelhano,Pollatsek和Cave,2008):起始阶段,它指首次眼跳的潜伏期,即从视觉刺激呈现到开始眼跳之间的时间;扫描阶段指眼球运动的时间,即从眼跳开始到注意到目标的时间;确认阶段指对客体的凝视时间,即从注意到目标到作出反应的时间。孙琪和任衍具(2014)认为,目标模板与场景交互影响着视觉搜索,但两者起作用的时间是不同的。在起始阶段,仅场景信息起作用。在扫描阶段,目标模板引导视觉指向与目标客体相似的区域,与此同时场景信息引导视觉指向目标客体可能存在的区域。在确认阶段,目标模板确定该客体是否目标,而场景客体的语义一致性的促进识别的过程,如图13。

图13