《智能的理论》全书转至目录****
不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。
一.概述
1.定义
距离知觉指的是观察者使用各种线索,对环境中的目标物的距离进行估计。这种心理表征能够使观察者在环境中成功进行定位,从而进一步实现观察者与环境的交互,进行更为复杂的活动。日常生活中对于空间的感知十分重要,在进行"拿杯子"的动作时,需要双眼对自身与杯子的距离进行估计,得到准确信息后反馈给大脑,再进行运动;在驾驶时需要时刻注意自身车辆与其他车辆的距离以免发生碰撞。(王成瑜,2021)
2.分类
根据观察者是否运动,可以将距离分为:动态距离,它发生在观察者位移的过程中,是对自身移动距离的感知;静态距离,是指观察者在保持在一个固定的位置,在没有自身运动的情况下判断一段视觉距离,包括物我距离和物物距离。静态距离一般只利用视觉信息,而动态距离涉及视觉输入的光流信息、身体感觉和前庭感觉等多种感官信息的整合。(周柳,2015)
(2)物我距离和物物距离
在静态距离中,根据距离之间的对象,可将距离分为:物我距离,指观察者自己和目标物之间的距离;物物距离,指两个物体之间的距离。在盲走任务中被试能够准确地判断物我距离,但是在判断物物距离时却出现了很大的错误(Loomis,Da Silva,Fujita和Fukusima,1992)。Wu等人(Wu,He和Ooi,2007a)对此的解释是,这两种距离所选用的地表信息是不同的。根据SSIP假说,当视觉系统能够由近到远地整合深度信息时,能构建准确的连续的大范围的地表表征。物我距离判断任务之所以准确,有可能是因为这种任务本身就强迫被试由近到远地扫视自己和目标物之间的一个相对较大的地表,这样就使得地表被准确的表征,相应的距离判断就比较准确。而物物距离判断任务就不同了,被试只是扫视了目标物和另一个目标物之间的地表信息,由于没有依赖近处的深度信息(不是从自身开始),因此视觉系统不能构建准确的地表表征,物物距离判断就不准确了。
(3)个人空间、行为空间和远景空间
在物我距离中,以观察者为中心,根据知觉对象与观察者自身的距离远近,由近及远依次将知觉空间划分为三部分:个人空间,指观察者手臂能够触及的范围(小于2-3米);行为空间,指较大距离间隔但同时又在投掷和行走范围内的日常活动空间(2-30米);远景空间,指行为空间以外的距离(大于30米),比如海平面的落日、远山的轮廓等,为我们日常的知觉和行动提供遥远背景(Cutting和Vishton,1995)。随着距离间隔的增大,被用来估计这些距离的线索和加工类型也随之变化。
(4)直接距离与非直接距离(杨金星,顾正寅,包新乐和王琦君等人,2023)
根据是否直接从环境中直接获得,还可以将距离分为直接距离和非直接距离,前者是指感觉器官直接从环境中提取的距离信息,包括上述所有类型的距离类型;后者是指依靠显示媒介,如车载显示系统、监控系统、内窥镜等获取的距离信息。非直接距离在生活中应用广泛,如驾驶员在驾驶汽车时,需要通过汽车后视镜来判断驾驶车辆与后车的距离,准确的距离知觉是防止发生交通事故的首要因素;医生需要通过内窥镜观察胃内的溃疡或肿瘤的位置和大小,据此制定出最佳的治疗方案...。
由于非直接距离通过中间媒介获得,根据中间媒介的性质,非直接距离获取的距离信息会受到不同的限制。例如,视频是2D信号,因此无法获取双眼的深度视差信息。即便同是视频信息,在相同场景情况下,不同显示设备呈现的图像效果也不同,当个体用不同分辨率的电视观看同一视频时,从画面中的同一物体上获得的距离知觉是不同的。高分辨率的电视可以较好地呈现线条透视、相对高度、纹理梯度等距离线索,帮助观察者构建接近真实的距离知觉;相反,低分辨率电视则较难做到。后视镜容易受自身大小、倾角等影响,而摄像头容易受摆放位置、光照条件等影响。还如,相比真实开车的场景,在模拟驾驶时,个体缺少了前庭感觉信息等等。因此,在非直接距离获取中,可能会有一些线索缺失,可能会有一些信息受损。因此相比直接距离,非直接距离变得更不准确。
二.实验范式
1.盲走范式
该任务是指个体先观察目标物位置,然后在没有视觉输入的情况下,闭着眼睛盲直线走到刚才所记住的目标物位置。该任务中不仅包括视知觉和对最初目标位置的记忆,还包括对环境中自我运动的位置更新。研究表明,盲走反应比较准确。(Loomis,DA Siva,Philbeck和Fucksima,1996;Thomson,1983)
盲走-比划高度任务指的是个体首先观察目标物并判断其距离和高度,然后根据记忆中的目标物距离进行盲走,在到达目标物的位置后用手势表达记忆中目标物的高度(Ooi和He,2015)。盲走-比划高度任务是在经典盲走任务的基础上增加了手势比划动作,以代表物体高度。投掷任务是盲走任务的另一个变式,这个任务要求个体先观察目标物位置,然后闭上眼睛投掷一个物体,使该物体的扔投距离等于刚才其看到的目标物距离。
2.知觉匹配范式
该任务要求被试看一个目标物并对其距离做出估计,然后旋转一个角度,调整另一个物体的位置,使该物体与自己的距离等于刚才所看到的目标物与自己的距离。视觉匹配任务既适用于物物距离判断,亦可用于物我距离判断。(Loomis,DA Siva,Philbeck和Fucksima,1996;Ooi和He,2007;Wu,Ooi和He,2004)
3.三角任务
三角任务具体又可以分为三角指向任务和三角行走任务。前者是指个体记住目标物位置后,闭上双眼沿着一条平行于目标物的直线行走,在行走的同时,需要其持续地用手指指示他所记得的目标物的方向;后者要求个体记住目标物位置,闭上双眼沿着一条平行于目标物的直线行走,在被要求停下时,立即转身面向他所认为的目标物方向。(杨金星,顾正寅,包新乐和王琦君等人,2023)
4.口头报告任务
该任务要求观察者看一个目标物后,用指定的单位(米、英尺等)口头报告其对目标物距离的估计(Loomis,Da Silva,Fujita和Fukusima,1992)。
三.线索与感觉整合
1.视深度线索(周柳,2015)
在距离知觉的线索中,被深入研究和广泛应用的是视深度知觉线索,主要包括以下四类(Gillam,1995):
(a)眼动神经线索:当目标物距离人眼较近时(2-3米以内),双眼注视目标物需要动眼神经、滑车神经和外展神经调动相应的七条眼部肌肉,协同控制眼球的转动,同时睫状肌也会调节晶状体的屈光度,有利于看清近距离物体,这些眼部肌肉所提供的眼球位置和本体感觉的反馈信息,能用以推断目标物距离。但这些眼动神经线索仅能在2-3米的范围内提供有效信息。
(b)运动产生的线索:当观察者位置移动时,近处的知觉对象朝着相反的方向快速运动,而远处的目标物朝着相同的方向慢速移动,这被称之为运动视差。由于观察者的位移,在不同的观察点还会观察到远处的知觉对象被近处的物体遮挡住,或原本被遮挡的远处物体逐渐显露出来。
(c)双眼视差:请阅读"9-3:深度"。另外,当距离超过一定范围时双眼视轴基本平行,双眼视差为零,对距离的判断就不起作用了。
(d)图画深度线索:也称为单眼线索,即用一只眼睛就可以获得的深度线索。例如,画家作画时使用绘画技巧,以使得观察者从二维的画布上,观察建构出三维的立体场景。常用的画图深度线索包括:遮挡、透视、线性透视、相对大小、明暗和阴影、视野高度、纹理梯度(结构极差)等(9-3:深度)。大部分图画深度线索的有效性往往要在远景空间上才能体现。
2.感知觉整合
在"18-4:多感觉加工"的一些实验中可以发现,观察者在对距离进行知觉时,可以同时使用由多个感觉通道所提供的知觉线索,除了视觉,还包括前庭觉和身体感觉。个体会对来自各个方面的线索进行评估,并将这些线索进行整合,从而对距离做出一个综合的、更准确的距离判断。
一些研究发现,视觉在距离知觉中扮演重要角色。Sun等人(Sun,Campos和Chan,2004)用虚拟现实技术研究了在相对距离判断中,动觉信息和光流信息的利用情况。在这项研究中,光流信息有三种呈现方式:(a)被试静止不动,只用鼠标操纵电脑,看到一个运动的视觉影像,只呈现视觉信息;(b)被试在完全黑暗的环境中踩踏板,只呈现动觉信息;(c)通过操纵屏幕上的光流速度破坏光流信息和动觉信息之间的耦合关系,造成这两种信息之间的不对应。实验任务是需要被试对实验过程中的(虚拟)位移距离与某一对比距离进行比较(如问"刚刚的位移距离是否大于10米")。结果发现,在相对距离判断任务中,被试主要依赖光流信息(比如,光流速度信息与动觉信息不对应,被试大脑选择"相信"光流信息)。另外,如果被试同时使用身体感觉信息进行相对距离判断,那么被试判断的准确性有所会提高。Waller和Greenauer(2007)要求被试在虚拟现实环境中,分别在正常行走(视觉、前庭觉和身体感觉)、坐在轮椅上前进(视觉、前庭觉)和在原地观看光学流信息(视觉)三种运动模式下,指出迷宫中目标物的位置。结果表明,被试在三种模式下的距离估计并无显著差异,但是在正常走路模式下的距离估计准确性稍高于另两组。
但也有研究者认为,个体主要使用身体感觉信息进行动态距离估计。Kearns等人(Kearns ,Warren,Duchon和Tar,2002)认为,在路径整合中,单独的光学流信息和身体感觉都可以提供准确的距离知觉;但当被试能同时使用光学流信和身体感觉信息时,则主要依赖身体感觉信息进行距离估计。而有研究认为,在人类的路径整合中,光流是一个较弱的感觉输入,它并不能使被试完成准确的导航,人们主要利用身体感觉信息进行距离估计或路径整合(周佩灵,2011)。Harris等人(Harris,Jenkin和Zikovitz,2000)使用线索冲突范式,考察了虚拟现实环境下光流信息和前庭信息同时呈现且相互冲突时被试的表现,发现被试更依赖前庭信息对距离进行估计。
四.固有偏差
Ooi等人(Ooi,Wu和He,2001;2006)采用了"盲走-比划"范式,在黑暗环境中研究了个体对发微光目标物与自身距离的判断。实验发现,在黑暗中,观察者对近处的目标物距离有所高估,而对远处的目标物距离有所低估。对于实际位于地面的目标物,几乎都被高估了高度,并且越远的目标物被知觉得越高。通过分析发现,观察者所判断的目标物位置,恰好位于眼睛到目标物连线与一个隐性的曲面/斜面的交点处。他们假设,该隐性曲面/斜面,就是视觉系统对地表表面的内部表征,与我们日常所见的实际的水平地面不同,它是一个远端向上倾斜的曲面/斜面,与水平面成12.4度的夹角。这个向上翘起的曲面/斜面被认为是视觉系统内部的固有偏差。
由于视觉系统将较远处的地表知觉为是向上倾斜的,Wu等人(Wu,Ooi和He,2004)对此提出了一种距离计算方法:
d=H*cos(α)/sin(α+η)=D*H/(H*cos(η)+D*sin(η))
其中d为被试知觉的距离,α为水平视下夹角,D为目标物的真实物理距离,H为眼睛高度,η为视觉系统的内在固有偏差的斜率。因为η的存在,使得地表向上倾斜,因此导致 d<D,被试表现出对目标物距离判断的低估和高度的高估,如图1。

图1
以上情况为知觉客体出现在水平面上,那么当客体呈现在倾斜角度为θ的斜面上时,如图2,视觉系统则在结合固有偏差后得到的知觉距离公式则为:
d=D*sin(α+θ)/sin(α+θ+η)
=D*H*cos(θ)/(H*cos(θ+η)+D*sin(η))
其中,θ为斜面的倾斜角度(Ooi和He,2007)。

图2
五.大地理论与SSIP假说
1.大地理论
作为在陆地上繁衍的人类,大地表面可以说与我们的日常生活息息相关。我们知觉到的客体基本上是置于地表的,不论客体处于多么复杂的环境中,均与地表存在着一定的联系。在知觉与目标物之间的距离时,地表承载了很多重要的信息,如果不存在连续地表作为背景参照,视觉系统可能无法准确知觉空间中客体的位置。因此,Gibson(Gibson,1950)提出的大地理论认为,如果不能知觉到一个连续完整的背景表面,那么双眼不会产生空间知觉。例如,飞行员降落时,主要参考的是地面以及地平线,个体首先需要通过知觉地表表面构建空间背景表征,进而以此为参照框架编码客体的布局信息。
已经有很多研究表明,在中等距离范围内,视觉系统对于置于地表的物体是准确知觉的(Wu,Ooi和He,2004)。另外,一些研究表明,在呈现天花板纹理与地表纹理时,呈现在地表纹理之上的目标物将会比呈现在天花板纹理上的目标物知觉得更为准确(Bian和Andersen,2010;Bian,Braunstein和Andersen,2005)。
2.连续表面整合加工假说(SSIP假说)
虽然大地理论已经得到了很多研究的证实,但是地表参考框架的形成过程却仍不清晰,针对该建立过程,He及其同事提出了连续表面整合加工假说(SSIP假说)(He,Wu,Ooi和Yarbrough等人,2004)。SSIP假说认为表征地表的过程开始于近处地表,并之后向远处地表扩展。具体来说视觉系统利用近距离线索,如晶状体的调节,双眼视差和运动视差等来构建一个准确的近地表(<2-3m)表征(图3中的S1),接着以近地表表征为模板来整合S1以外的邻近地表S2。如果S2和观察者之间的距离大于2-3m,则近距离线索几乎不再起作用,这时视觉系统主要利用纹理梯度线索来表征地表。假如S1和S2覆盖的纹理或多或少是均匀的,视觉系统就会将S1和S2整合为一个具有相同倾角的较大的连续地表。S2被表征之后,SSIP继续整合S3,就这样进行下去直到最远处的地表被整合。但是如果S1和S2之间存在纹理梯度的变化,视觉系统就会将S1和S2表征为两个分开的地表。如图。

图3
3.SSIP假说的内容和实证(王成瑜,2021)
该假说可从三个方面进行表述:第一,视觉系统由近及远地表征整个地面,近处地面在此过程中是最为重要的最初的模板;第二,地表之间被成功整合的条件是地表之间的纹理梯度以及地表的连续性;第三,视觉系统由于固有偏差形成一个远方向上翘起的表面。
(1)地表参考框架的加工顺序------由近及远
在光照良好的自然环境下,双眼是先加工2-3m距离范围内的地表,然后将这部分地表作为模板,以地表连续、纹理梯度一致作为整合条件,继续由近及远加工远方的地表。
根据SSIP假说,可知当近地面不能被表征时,个体的距离知觉准确性下降。在实验中(Wu,Ooi和He,2004)通过眼罩限制被试的视野区域,结果发现,当被试的视野范围被限制在远范围内时,个体由于缺乏近地表的信息,因此缺乏定位信息,不能形成完整的地表特征,无法由近及远连续地建立地表参考框架,其物我距离判断精准度下降。Wu等人(Wu,Ooi和He,2004)在光照充足的自然场景中,通过设定被试的观察顺序:从远地面看向近地面;从近地面看向远地面,分别要求被试进行物我距离判断,结果发现双眼由近至远观察地表时的距离判断更加准确。
(2)地表整合成功的条件------地表的完整连续性
建立完整地表参考框架的重要条件是地表的连续完整性。只有近处与远处地表的纹理梯度一致,且地表连续时,近处与远处地表才可以整合为一个完整的地表。
在一个实验中,被试和目标物之间有一个宽度为3.7米或4.1米的坑,以造成不连续的地表。要求被试在观察目标物距离之后,用盲走和视觉匹配任务报告刚才所看到的距离。结果表明,在连续地表上,被试的距离判断比较准确;而在不连续地表上被试都高估了距离。这说明连续、单一的地表的确是准确知觉距离的关键(周佩灵和黎安娟,2011)。Wu等人利用VR技术将被试与目标物之间的地表设置为草地与鹅卵石两种纹理,相较于只有一种纹理(只为草地或鹅卵石),被试均低估了跨越纹理边界的距离(Wu,He和Ooi,2007a)。
(3)地表知觉的结果------向上翘起的地表
在连续地面上,远处目标物的物我距离会被低估,形成一个远方向上翘起的地表的知觉(Ooi和He,2007),即固有偏差。固有偏差通常需要在黑暗环境条件或者缺乏外部线索条件下进行研究。这是因为在光照条件下,地表信息等外部线索(主要是纹理梯度信息)承载了大部分地表整合需要的内容,它与固有偏差共同对地表参考框架的建立产生影响(同样会产生一个向上倾斜的表面的心理表征)。但是在黑暗中,剥夺了可见的深度线索的视觉系统,留下的固有偏差将会对地表表征产生更大的影响,从而得到更好的研究。