9-18 视觉预期(AGI基础理论)

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一.基本概念

1.定义

根据de Lange等人在2018年的综述(de Lange,Heilbron和Kok,2018),我们有丰富的内省意识(即当前环境中可能发生事情的先验信息),并以此期待即将来临的刺激是什么。期待是一种大脑状态,是头脑中存储的关于即将出现的环境刺激是什么的先验知识。如果外部刺激与期待的刺激一致,比如你走进一间熟悉的房间,由于对家具、绘画或植物的可能布局有预先的了解,会产生期待满足的结果,这种"预先了解"可以通过多次接触到的先前信息来完善;如果不一致,比如进入一个陌生的房间,房间的布局与预期的不一致,会产生期待违背的结果。

2.分类(Seriès和Seitz,2013)

据预期的产生与来源可分为两大类:"结构性"和"情境性"。结构性预期受场景中所有信息的影响(包括场景自身及刺激之间的关系)。如图1,图下方为输入刺激,当被试的先验预期信息是一群飞禽时(由于作为一个场景呈现),那么输入刺激会被识别为鸭子。还如图2,由于人有"光线来自上方"的预期信息,你很可能会看到在一堆凸面中有一个凹面,这是因为凸起的顶部应该被照亮,而凹陷的顶部应该处于阴影中。结构性预期的内隐知识可能是通过对环境的学习获得,也可能是天生就有的。有研究发现(Hershber,1970),"光来自上方"的先验知识在鸡中是天生的;而Adams等人(Adams,Graf和Ernst,2004)则发现,对于人类,该知识是从环境中习得。情境性预期可以通过语言指令(如实验室的提示语"相同的刺激将重复出现")、提示线索(如一个箭头提示刺激将出现在右边)、或者呈现刺激所在的空间或时间背景(例如,在复活节日(时间背景),你更有可能认为图1中的输入刺激是一只兔子)得到。这两种类型的预期信息可以同时存在,根据特定的情况其中一种可能会更占优。

图1

图2

二.先验知识的学习

1.学习

大量研究表明,预期中的先验知识能够被迅速习得。Chalk等人(Chalk,Seitz和Seriès,2010)发现,即使在只有一种视觉线索的情况下,通过统计学习(多次重复呈现)形成的期望也能调节对简单视觉特征(如运动方向)的感知。他们的实验如图3(a)所示,在每次试验中,可能会呈现运动刺激,在这种情况下(有点)在注视中心出现后低对比度的运动刺激随之呈现(低对比度使被试观察刺激的难度增高),同时一个红色长条从注视点向外延伸(每次试验中红色长条的初始角度随机),红色长条完全位于包含移动点的圆环中心。被试通过鼠标将红色长条定向为刺激运动方向,确定方向后点击鼠标确定(方向估计任务);也可能不会呈现运动刺激,这种情况下(无点)注视中心出现后只有红色长条呈现,但被试仍然需要像正常情况一样估计感知到的运动方向。当被试点击鼠标或3000毫秒过去后,屏幕中心会出现一条垂直的白线,两侧分别写着"无点"和"有点"。被试需要通过鼠标选择表明他们是否看到了运动刺激(检测任务)。被试需参加了两次实验,每次实验持续约1小时,连续进行。每次实验分为5个区块,每个区块有170次试次,总共1700次试验。在出现运动刺激的试次中,研究人员使用了一种双峰分布的运动方向(这两个方向彼此相隔64度),即两个方向比其他方向更频繁地出现,如图(b)。研究发现,在执行任务几分钟后,被试对刺激的感知方向与实际方向相比,更倾向于与最常呈现的方向相似。此外,在没有呈现刺激但参与者报告看到刺激的试验中,他们强烈倾向于报告这两个方向的运动(一种幻觉形式)。当参与者报告没看到刺激时,没有观察到这种效应。

这种学习是内隐的,在实验结束后,当被问及刺激分布时,大多数参与者表示没有意识到某些方向比其他方向更频繁地呈现。

图3(a)

图3(b)

2.更新

研究证明,预期先验知识也可以通过后天学习而更新。所谓的"慢速先验",指的是视觉物体是静态的或缓慢移动的先验。对于这个大多数物体是静止的或移动缓慢的世界,这是一个合理的假设。孔径问题是其中一种"慢速先验",在如图4所示的例子中,仅从圆孔内看,铅笔从左到右水平移动,实际上铅笔的运动方式有无穷种,它既可从左到右水平移动,也可沿从水平向上倾斜45度方向移动...(Goldstein和Brockmole(著),张明(译),2018)。由于"慢速先验"的存在,被试一般认为铅笔左到右水平移动(因为这时铅笔的速度最慢)。

图4

在Sotiropoulos等人(Sotiropoulos,Seitz和Seriès,2011)的实验中,被试会看到一组平行线,这组平行线有两个运动方向,这个运动方向要么垂直于线的方向移动(在50%的试验中),要么倾斜于线的方向(在另外50%的试验中),如图5,被试需要报告感知到的刺激的运动方向(垂直或倾斜)。实验在连续五天里进行,分为3个区块,第一个区块是短测试块(216次试验)、第二个是长"训练"块(720次试验),最后一个是最终的短测试块(216次试验)。测试块的刺激总是以缓慢的速度移动(4°/s),训练块在不同组之间有所不同:对照组以缓慢的速度(4°/s)移动,而实验组以快速的速度(8°/s)移动。在第一个短测试块中,对照组和实验组都出现了慢速先验效应,即更容易将一些倾斜运动的线条错误的知觉为垂直运动(一种错觉)。但经过训练后,对于最后一个测试块,实验组的被试发生了错觉逆转,即更少错觉的发生。研究者认为,快速的刺激可能会导致观察者隐性地更新他们对速度的预期(实验组被试对线条的预期移动速度增高),因此在最后一个测试块,由于实验组被试预期移动速度提高,会使"倾向到垂直"的偏差减少。

图5

三.作用(预期与注意的协同作用)

在早期研究中,预期和注意总是被互换着使用(Corbetta和Shulman,2002)。但近年来,大量研究证明了注意和预期是两个不同的神经机制,预期与注意协调作用于视觉感知。

1.预期引导注意

选择性注意通常是由预期引导的。例如,有研究发现,注意更容易被分配到更加具有规律性的刺激中(如在周期信号中预测下一个周期信号的出现时间)。当与任务和目标有关时更为明显,例如,在寻找丢失的钥匙时,你可能会将注意分配到最有可能找到钥匙的地方,而这个最有可能找到钥匙的地方由预期给出。(付春野,2022)

在一个经典的案例中,Yarbus(1967)记录了被试在观看画作《意外归来》(图6(a))时的眼动记录。实验任务是要求被试判断人物的年龄、记忆人物身穿衣服的颜色或记忆人物与房间中其他物品的位置关系。很明显,眼动的模式取决于被试的任务主题。当任务要求判断年龄时,被试眼动主要集中在面部(图(b));当任务要求记忆衣服时,眼动主要集中在身体上(图(c));当任务要求记忆所有人和物体的位置关系时,眼动更均匀地分布在整个画作上(图(d))。在这些过程中,眼动的位置依赖于记忆和预期。(Goldstein和Brockmole(著),张明(译),2018)

图6

当一个任务或目标由一系列动作组成时,注意力也会不断地从一个位置转移到另一个位置,并且,注意力一般会在动作开始前移动,如在拿钥匙之前先看向钥匙所在的位置。被试看向不同位置的时间由完成任务要用到的动作次序决定。例如,图7记录了制作花生酱三明治时的眼动模式。首先是将一片面包从袋子里拿到盘子里。这样的操作过程伴随的眼动是从面包袋子到盘子。然后在拿起花生酱罐子之前先看向罐子,在打开盖子之前先看了看盖子。然后注意力转移到刀子上,拿起刀子去舀花生酱,之后看向面包,将花生酱均匀地抹在面包上(Land和Hayhoe,2001;Goldstein和Brockmole(著),张明(译),2018)。

图7

2.效率优化

由于视觉感知受到计算能力的限制,以及进入视觉系统的信息固有的模糊性,大脑只能加工视觉感受器中的一小部分细节。预期在视觉加工过程中非常重要,能减少视觉感知的计算负担(付春野,2022)。如果环境中的某些刺激保持不变,就不用进行重复的深层加工(Summerfield和Egner,2009)。有研究发现,预期刺激会引发较弱感知觉的反应,反应强度应该是惊奇的函数(de Lange,Heilbron和Kok,2018),惊奇程度越高越容易引起外源性注意的反应(比如在厨房中出于一个打印机会引起被试的惊奇,从而吸引被试的外源性注意),而惊奇程度越低越不容易引起外源性注意的反应,因为大脑会过滤掉感觉输入中预期的成分,抑制对预期刺激神经元的反应(刺激出现之后)。

3.排序与解释

根据注意和预期的定义,注意和预期的作用不同:注意在动机相关性的基础上对刺激加工进行优先排序,而预期在先验可能性的基础上促进视觉信息的解释(刺激出现之前)。在刺激出现之前,易化被预期的信号,使该信号更容易被解释,而成功接收到该信号后,由于没有惊奇,因此抑制该信号的反应,使注意被分配到其他地方中去。

近年来普遍的观点都认为预期是有助于感知提升的。Bar的行为研究(Bar,2004)证明了人们对于处于背景一致的物体(如卧室中的灯),要比背景不一致的物体(如海滩上的灯),加工得更快和更可靠。这是因为背景的激活异化了背景一致的物体。而另一项研究发现,当面对一项经过模糊处理的图片时,事先观看过原图片(即未经模糊处理的原图)的参与者能够对模糊图片中的细节具有更高的敏感性(Cheadle,Egner,Wyart和Wu等人,2015)。

四.神经机制

1.神经细胞的可塑性

在现实世界里,大多数物体都保持稳定,事物随时间缓慢变化。因此,有许多稳定的物理特征在长时间的生活中会被习得从而形成预期。(de Lange,Heilbron和Kok,2018)

神经细胞具有可塑性,在与环境的接触过程中,大脑被不断地改变或"塑造",进而能够更有效地感知环境。研究表明,如果动物被饲养在特定的环境中,那么它们脑中的神经元就会变得对这个环境中的一些特征更为敏感。通常来说,小猫的大脑里包含了对各种方向线条敏感的神经元,从水平方向到倾斜方向再到垂直方向都有。但是,Blakemore和Cooper(1970)发现,当小猫被养在一个只有垂直方向刺激的环境中时,它的视觉皮层就会被重新塑造,最终只剩下了主要对垂直方向线条进行反应的神经元。同样地,如果小猫生活在一个只有水平方向刺激的地方,最后它的视觉皮层中可能就仅存有主要对水平方向进行反应的神经元。生活中水平线(如地面,车的顶部等)和垂直线(如建筑、树木、水杯两侧等)更常见,因此人们对水平线和垂直线的预期更高。

2.场景上下文形成的预期

通过场景、背景和上下文等,可以形成基于条件概率的预期(场景、背景和上下文作为条件)。例如,在街道上行驶的场景中,移动物体更有可能是汽车而不是鲨鱼。在这个例子中,场景的高级表示对构成该场景的低级元素进行了约束。更普遍地说,可以说视觉世界存在一种层次结构:有方向的线条和曲线构成简单形状,形状构成物体,物体被排列成场景,这种视觉层次结构与视觉皮质的分层组织相对应。在视觉皮质层次结构中,除了自下而上(即低到高或简单到复杂)的信号流外,还存在大量的自上而下的连接,这可能允许高级表示(例如,一条街道)传达对低级特征(例如,一辆汽车)的期望,场景背景的神经表征的存在会增强对场景内物体的神经表征。(de Lange,Heilbron和Kok,2018)

相关推荐
轻览月2 小时前
【DL】复杂卷积神经网络Ⅱ
人工智能·神经网络·cnn
AGI_Eval2 小时前
AGI-Eval 解读 | 警惕静态评测的“重用偏差”:AMemGym 实测显示 RAG 排名倒退,智能体逆袭
agi
2501_936146042 小时前
YOLOv26鱼类目标检测与识别实现
人工智能·yolo·目标检测
AI 菌2 小时前
DeepSeek-OCR v2 解读
人工智能·大模型·ocr·多模态
朴实赋能2 小时前
2026年运营革命:新型AI驱动跨境电商矩阵解决方案
人工智能
lywybo2 小时前
【开源】赛博报社技术剖析:如何零成本使用AI大模型
人工智能·开源
迈火2 小时前
Facerestore CF (Code Former):ComfyUI人脸修复的卓越解决方案
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
qwy7152292581632 小时前
7-获取局部图像
人工智能·opencv·计算机视觉
70asunflower2 小时前
Zotero论文阅读标记颜色框架
人工智能·学习·考研