9-7 轮廓感知(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一.轮廓感知与侧抑制(Goldstein和Brockmole(著),张明(译),2018)

轮廓是我们感知物体形状的基础,它确定了一个物体的边界和面积。对于线条图的轮廓(如图1)而言,轮廓可以使用线条特征察觉器和角点特征察觉器来检测,每个特征察觉器只检测其感受野范围内的线条或角点(局部轮廓)。而当多个特征察觉器组合使用时,便可完整的感知到整个轮廓。

图1

1.侧抑制现象

侧抑制有助于对轮廓的突显。侧抑制的发现来自于Hartline对鲎眼的研究(Hartline,Wagner和Ratliff,1956)。鲎有两只普通眼,两只复眼(苍蝇等昆虫也是复眼)。每只复眼包含了上千个单眼,每个单眼都有各自的晶状体、中间神经细胞和视神经,单眼大约铅笔尖的大小,是一个独立的视觉感受器。实验人员对鲎的复眼进行了三种不同的测试,并记录了某些单眼的放电情况,分别将单眼记为A和B。当只刺激单眼A时,其放电现象最强;如果单眼B处在单眼A附近,当同时刺激单眼A和单眼B时,单眼A的反应有所减弱;而当加强对单眼B的照射时,单眼A的反应最弱。如图2。

图2

2.侧抑制的机制

侧抑制主要是由于相邻感受器之间的抑制性连接导致的。一方面,一个感受器的反应强度与其受到的刺激强度有关,当刺激越强时感受器的反应就越强。另一方面,感受器的反应还会受相邻感受器的影响。相邻感受器之间存在抑制性连接,当附近的感受器受到的刺激越强,抑制性连接的信号就会越强,目标感受器的反应就会减弱。以如图3为例,图中的六个感受器中,使X、A、B受到高强度的刺激,因此它们产生100的初始信号强度;使C、D、Y受到低强度的刺激,因此它们产生20的初始信号强度。假设每个感受器都会对左右各两个的感受器产生侧抑制,假设100的信号强度会产生强度为10的抑制信号,20的信号强度会产生强度为2的抑制信号。那么从图中可得,A最终的信号强度为初始信号强度(100)减去来自于X和B的侧抑制(均为10),即100-10-10=80;B产生的最终信号强度为100-10-2=88;C产生的最终信号强度为20-10-2=8;D产生的最终信号强度为20-2-2=16。从该例子可以看出,在高强度刺激和低强度刺激的交界处,边界会被凸显。因此,边界更容易被感知。

图3

在视觉感受器(视锥细胞和视杆细胞)与视神经之间存在水平细胞和无足细胞。水平细胞连接不同的感受器,使不同感受器之间能传递信息(如侧抑制),而无足细胞则在双极细胞之间或神经节细胞之间,使它们能相互传递信息。

3.与侧抑制相关的错觉

如图4,谢费勒尔错觉是指图中不同区域的交界处会出现一条明暗带条(图(a))。事实上这个带条是一种错觉,而非真实物理刺激。尽管每个区域内的灰度值都是相同的(B区与C区的实际灰度值如图(b)),但根据侧抑制原理,可以感知到BC交界处的左侧(处于B区内)有一条更亮的带条,而在交界处的右侧(处于C区内)有一条更暗的带条(如图(c))。

图4(a)

图4(b)

图4(c)

侧抑制的另一个错觉现象是明度对比。图5显示了四个大正方形内部各自嵌入了一个小正方形。四个小正方形的灰度值都是相等的,但是从眼睛所感知到的,左边小正方形的明度会更高,右边的会更低(从左到右,明度值逐渐降低)。要注意的是,这里所指的明度是指一种感知感觉,而非实际的灰度。

图5

二.轮廓感知的认知神经机制

吴苾婵和莫测(2019)在综合了前人研究的基础之上,对轮廓加工的认知神经机制进行了系统化的探讨和总结。她们提出,视觉轮廓加工包含了以下三个阶段:轮廓检测,它处于视觉加工的早期阶段,仅在局部水平对轮廓进行提取;轮廓从属判断,它处于视觉加工的中期,视觉系统对所检测到的局部轮廓进行从属关系判断,即指定局部轮廓属于哪一个视觉对象;轮廓整合,它处于视觉加工的后期阶段,视觉系统根据轮廓从属关系将局部轮廓信息进行整合,形成视觉对象的视觉轮廓完整表征,并以此进行后继的场景分割和客体识别等任务。在这个分层体系中,各阶段之间存在着复杂的交互作用。一方面,局部轮廓检测及其从属关系判断为轮廓整合提供的输入。另一方面,在进行轮廓整合时可对低级皮层进行至上而下的反馈调节。

1.轮廓检测

轮廓检测主要发生在视觉加工的早期阶段。在大脑皮层中,初级视觉皮层(V1区)是最先接受经外侧膝状体传递的视觉输入信号并对其进行加工的区域,是视觉信息在皮层传递通路的起点。

首先,V1区具有大量的方向柱,它们对特定方向的线段具有高度的敏感性(9-1:视觉通路)。然而,V1区的轮廓识别受到周围环境的影响,尤其在复杂情况下会变得更具挑战性。例如,在清醒猴子上的实验表明,V1区的细胞对共线轮廓的反应会被周围不相关背景抑制。如果周围刺激和目标刺激有类似的特征(如平行线),被试识别特征的能力会降低,即在V1区中对相同特征同时响应时会相互抑制(van der Smagt,Wehrhahn和Albright,2005)。因此,轮廓的获取还需要其他层级和机制的加工

其次,生理解剖实验发现,方向柱与方向柱的V1细胞之间有大量水平连接,且由这些水平连接的V1细胞具有相似的方向特异性(所敏感的方向相似)。通过水平连接,每个V1神经元实际接受到的信号来自于其感受野4~5倍大的空间区域。如图6,在杂乱的短线段背景中,存在一条由短线段连接而成的直线轮廓(图6像中部)。Li等人(Li,Piëch和Gilbert,2008)通过控制轮廓上的短线段数量和短线段之间的距离来控制直线轮廓的显著性(当线段数越多,线段之间的距离越短时,显著性就会越强;反之则越弱)。实验结果发现当轮廓显著提高时,V1细胞在150ms时的激活程度也会提高。虽然短线段的间距变小能够帮助轮廓识别,但是当小到一定程度时对轮廓识别的促进作用几乎不会增加;反之则会降低,当共线短线段之间的距离增加到2°时就已达到随机正确率。

图6

最后,V1区神经元不仅接受外侧膝状体和大量同层级的水平连接的输入,还接收一些自上而下的输入,如V4和外侧枕叶复合区 (LOC)。Li等人研究了猴子在观看轮廓时的 V1区和V4 区活动,并观察视觉刺激的延时响应(刺激呈现后细胞多久后反应)。结果发现,V1的延时响应在44ms,V4的延时响应在58ms。就是说,视觉刺激引起的信息从V1到V4的正馈需要14ms。之后,他们又测量了与轮廓相关的延时响应(形成轮廓的响应)和强度,发现V1延时在90ms,而V4的延时在59ms,即V4出现的轮廓相关的响应较V1的早,且激活强度更强。该结果表明:轮廓最初是在V4区形成,接着是一个逆向流反馈到V1区,使V1神经元将轮廓信号放大,同时抑制其背景信号(其他噪声信号)。V1和V4神经元与轮廓相关的特性不同,V4具有较大的感受野,其轮廓信号仅指示一个粗糙的信号(大致的位置和形状),但是足够给V1轮廓信息加强;而V1的感受野较小,能提供更多轮廓的细节信息和具体的位置信息。以此可知,由V4到V1的交流形成了一种由粗略到精细的轮廓信息构建。(Chen,Yan,Gong和 Gilbert等人,2014;Li,Thier和 Wehrhahn,2000)

2.轮廓从属判断

轮廓从属判断即判断所检测到的局部轮廓从属于哪一客体。这个过程的意义在于确定了前景(或注意区域)和背景之间的划分。如图7所示,如果将黑色区域看成是前景,白色区域看成是背景,那么轮廓属于两侧的人脸。相反,如果白色区域作为前景而黑色区域作为背景,那么轮廓属于中间的花瓶。另外,von der Heydt等人(Zhou,Friedman和von Der Heydt,2000)在V2区和V4区发现了表征边界从属关系的神经元。他们发现,对于同样的刺激,当轮廓的从属发生了改变,对应神经元的活动也发生了变化。

图7

Craft等人(Craft,Schutze,Niebur E和Von Der Heydt,2007)提出了边界从属模型,如图8。如图(b)所示,该模型是一个分层结构,最底层由边缘细胞(C细胞)和端点细胞(E细胞)组成,其所获得的边缘和端点信息会输入第二层的表征轮廓细胞(B细胞)。每个B细胞的感受野都有其对应指向。在一个边缘的同一位置上(同一感受野),有两个方向相反且垂直于边缘(指向)的B细胞被激活(如一条水平线的某位置上,分别有垂直向上的B细胞和垂直向下的B细胞),分别标为B+和B-。这两个B细胞互相抑制(如果B+激活程度高,那么B-就会低;反之亦然。这符合一段轮廓只能属于一侧客体的原则),连接标记为β,赢了的B细胞所指向的就是该边缘的所属客体。如图(a)所示,图中展示了两个重叠的矩形刺激(底部)。B细胞的感受野以椭圆表示,其中附着的箭头指示其偏好的方向。同一位置且箭头相反的B细胞相互竞争(激活的B细胞的感受野以绿色和红色显示;受抑制细胞的感受野以灰色显示)。这两个互为对抗的B细胞会分别传入第三层的两个轮廓分组细胞(G细胞),连接标记为γ。G细胞的感受野为一圆环,被处于其感受野上(感受野重叠)且指向其圆心的B细胞激活,当G细胞被激活时,会抑制背离其圆心的B细胞,抑制的连接标记为p。由于物体的凸面更多,因此当越多边缘激活G细胞时,表明G细胞越有可能处于某个客体之上,边缘越可能属于该客体,从而完成轮廓从属。如图(b)所示的"凹型"(6个凸面和2个凹面),它显示了两个G细胞被激活,其中一个被角点和角点两边激活,另外一个G细胞被两条对边激活。大脑中有不同大小感受野的G细胞,也因此能检测不同大小客体的边缘从属。当感受野越小时与B细胞的连接强度越强,如图(a),颜色越深表示连接强度越强。

图8

图9

3.轮廓整合

轮廓整合对前两阶段的输出信息进行整合,该整合阶段主要发生在外侧枕叶复合区 (LOC)。一方面,LOC拥有更大的感受野,为整个轮廓的感知提供基础。另外一方面,LOC的下层通路是V4区,上层通路是下颞叶(IT)。前者具有边界从属关系选择性,后者在物体识别的过程中起重要作用,这表明,LOC为局部轮廓信息和客体表征之间的联系架起了桥梁。

(1)图形结构优势效应

有研究发现,识别一个三角形与识别一个点是同样容易的(反应时间相同),这一现象称为"图形结构优势效应"现象。Chen(1983)认为,图形结构优势效应的产生,是由于视觉系统对封闭性这类拓扑性质特别敏感。为进一步说明封闭性与图形结构优势效应的关系,Chen设计了实验。如图10(a)所示,分为四个象限,需要被试在较短的时间内判断出哪个象限与其他三个象限是不同的,并统计平均区别时间。在实验中,由于图形的第四象限是两个封闭的四边形,从而使得被试区别图形的平均反应时间大大降低间(801 毫秒),达到图形结构产生优势效应的时间。

但也有其他理论作出不同的解释。特征检测理论认为,之所以反应时间快,是因为一个象限图形的角点是8,其他象限图形的角点数是 4。若以角点数作为特征检测的基本单元,至少也是对图10(a)实验结果的一种解释。为了排除这种假设,Chen又设计了图(b)作为实验刺激。在这个刺激中,前三个象限均是由四个角且不封闭的图形组成,第四个象限的图象是同样有四个角但封闭的四边形。图(b)的实验结果是平均反应时间为811毫秒,与图(a)的实验结果相比,反应时间的差别没有达到统计意义。由于四个象限的图形的角点数都是4,这就可以排除把角点数作为基本单元的特征检测理论的假设。因此证明了Chen的观点:封闭性这一拓扑性质能引起视觉系统的敏感,因此产生结构优势效应。

图10

(2)自上而下反馈

轮廓整合阶段也为下层阶段提供反馈信号,促进底层脑区的轮廓加工。Kovacs和Julesz(1993)发现,当刺激为一封闭轮廓时,被试更容易检测到它的存在。另外,一些脑成像的研究发现(Altmann,Bülthoff和Kourtzi,2003;Wilkinson,James,Wilson,Gati,Menon和Goodale,2000),与随机线条或放射状线条相比,闭合轮廓能引起V1、V4、LOC、FFA等脑区更强的fMRI信号反应。当在模糊刺激中观察到轮廓时,V1、V2、V4 在 LOC的反馈调节下有更强的激活。

(3)主观期望

McManus等人(McManus,Li和Gilbert,2011)采用延时匹配范式,先让猴子学习一个形状线索(由7条短线段组成的轮廓,如直线、圆形和正弦波),然后呈现一个测试刺激,并让猴子通过眼动反应判断形状线索出现在刺激的左上方还是刺激的右下方。实验结果发现,当学习的形状线索为直线时,V1感受野周围的线段与感受野内的线段共线时其反应最强;而当学习的形状线索为圆形或者正弦波时,感受野周围的线段与感受野内的线段存在角度差时其反应最强。这说明来自高层皮层的主观期望影响了V1细胞在轮廓知觉中的作用。

(4)反馈时程

Drewes等人(Drewes,Goren,Zhu和Elder,2016)从时程上揭示了LOC的反馈调节机制。他们向被试展示小棒组成的猫、大象等简单形状(图11(a)),以10 ms为一屏,在形状刺激(T)的重复展示之间插入不同屏数的噪音刺激(N),以操纵形状刺激重复的时间间隔长度(0-100ms),如图11(b)。他们发现,被试在形状刺激展示间隔为60 ms时对形状的知觉最好,且形状知觉表现与间隔时长的关系函数呈单峰状态。Drewes等人提出,在刺激首次呈现之后,LOC对刺激中的轮廓信息进行整合并反馈作用于V1。此时,如果刺激二次呈现的前馈信息与反馈信息同时到达V1,那么反馈信息会降低V1的知觉噪声,并促进轮廓检测,被试的知觉任务也会更好。该研究表明,从时程上来看,LOC对V1反馈调节信号需要约60 ms的时间到达。

图11(a)

图11(b)

三.主观轮廓(任旭明,1996)

主观轮廓指根据图像线索在图像空白处产生了边缘或轮廓的错觉。如图12,图中并无圆形(图(a))、三角形(图(b))和正方形(图(c))的轮廓存在,但是还是会使人感知到它们的存在。格式塔原则最开始被认为是主观轮廓的产生机制,随着研究的发展,越来越多的理论被提出。这些理论可以被分为两大类:基于认知的和基于生理的。前者认为主观轮廓的产生与中枢系统有关,是一种心理机制;而后者则认为主观轮廓产生于外周神经系统,是生理的功能。

图12(a) 图12(b) 图12 (c)

1.基于认知的

(1)单眼深度线索理论

许多被试在观察图13时报告称三角形在诱导区中"凸"了起来。换句话说,三角形出现在三个黑色圆形前面并部分的遮蔽了它们。因此,单眼深度线索理论认为,主观轮廓的产生机制在于在刺激中插入了一个深度信息,使前景从背景中前移,从而使形状突显了起来产生主观轮廓。

图13

(2)认知理论

认知理论认为,当刺激为一个较为奇异的形状时,观察者通过对刺激的推断,能得到一个较为不奇异的形状。换句话说,观察者根据刺激的一些线索(如断线之间的连接),可以使用一个较为常见的形状,去解释这种不常见的形状(如图13中三角形和圆形元素的堆叠更为常见)。该理论是从Helmholtz的无意识推理理论发展而来的,该理论认为人能将所接收到的图案无意识的推理为最可能的客体。

2.基于生理的

(1)明度对比理论

明度对比理论指出,一个图形的明度依赖于其背景的明度。如黑色背景上的灰色区域看起来要比白色背景上的同样灰色显得更亮一些(由于侧抑制)。所以说,知觉的图形的明度不是绝对的而是相对其背景而言的。因而上图13主观轮廓可被看成是诱导部分(部分三角形边缘和部分圆)与中间白色区域(中间三角形错觉)对比的结果,这使中间区域显得更白,于是产生了主观的白色三角形。

(2)空间频率过滤理论

一个图像可以被分解为不同频率的信息(9-5:空间频率)。因此空间频率过滤理论认为,主观轮廓并不是主观产生的,而是客观的存在于图像某些频率信号之中的。如将图13中的高频信号过滤后,能发现一个属于低频信号的三角形。

相关推荐
虹科网络安全1 小时前
艾体宝洞察 | 理解生成式人工智能中的偏见:类型、原因和后果
人工智能
乌恩大侠1 小时前
【AI-RAN 调研】软银株式会社通过全新 Transformer AI 将 5G AI-RAN 吞吐量提升 30%
人工智能·深度学习·5g·fpga开发·transformer·usrp·mimo
智源研究院官方账号2 小时前
技术详解 | 众智FlagOS1.6:一套系统,打通多框架与多芯片上下适配
人工智能·驱动开发·后端·架构·硬件架构·硬件工程·harmonyos
yuezhilangniao2 小时前
ai开发 名词解释-概念理解-LLMs(大语言模型)Chat Models(聊天模型)Embeddings Models(嵌入模型).
人工智能·语言模型·自然语言处理
易晨 微盛·企微管家2 小时前
2025企业微信AI智能机器人实战指南:3步实现客服自动化
大数据·人工智能·算法
weixin_402939992 小时前
【机器人】机器人方向的顶会--自用
人工智能·机器学习·机器人
fcm192 小时前
ubuntu22安装cuda11.8和cudnn8
人工智能
一条闲鱼_mytube2 小时前
智能体设计模式(六)资源感知优化-推理技术-评估与监控
网络·人工智能·设计模式
人工智能培训2 小时前
数字孪生技术:工程应用图景与效益评估
人工智能·python·算法·大模型应用工程师·大模型工程师证书