9-14 知觉整合（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一．双眼竞争

1.现象

当双眼看到的东西一致时，可以使用双目匹配的方法将双眼视觉对齐（7-3：深度）。那当双眼看到的东西不一致时，会发生什么呢？1999年，O'Craven和他同事（O'Craven，Downing和Kanwisher，1999）设置了一种实验装置，能使被试左右双眼分别看到不同的图1像，比如左眼看到人脸，右眼看到房子。当被试观察时会出现双眼竞争的现象，即房子和面孔会交替出现在被试的知觉中，一回知觉到人脸，一回又知觉到房子，然后又知觉到人脸...。另外，在该过程中，通过对脑电活动的测量发现，当人在知觉到人脸时，其梭状回脸孔区的反应会更大；而当知觉到房子时，海马体的反应会更大。

图1

2.眼竞争理论和表征竞争理论

眼竞争理论（Blake，1989）认为，当对双眼呈现两个不同的图像时，两只眼睛会发生了竞争，一只眼被激活时另一只眼就会抑制。但实际上，两只眼都会被激活，只是激活的程度不同。激活程度更高的，占主导地位的眼睛被称为主导眼，另外一只眼睛被称为非主导眼。不管是主导眼还是非主导眼，其神经元都会放电，只是主导眼的激活程度更高（Brown和Norcia，1997）。与之相反的表征竞争理论，认为双眼的信息都被激活到了，虽然一只眼处于无意识状态，没有感觉到信息，但是只要有信息出现神经元就会被激活，与知觉状态无关，竟争是发生在两只眼的信息都被处理成表征之后，即表征之间的竞争（Logothetis和Sheinberg，1996）。

3.早期模型与晚期模型

（1）早期模型

一些研究认为双眼竞争发生在视觉通路的早期阶段，如V1区和外侧膝状体，有相关的脑研究支持了该观点，当一只眼睛的神经元被激活时会通过抑制中间神经元抑制另一只眼的，如图2（Lehky，1988）。

图2

（2）晚期模型

而另外一些理论认为，竞争发生在视觉通路的晚期阶段，涉及到高级认知加工机制对视觉输入的解释，如额顶叶皮层。Kovács等人（Kovács，Papathomas，Yang和Fehér，1996）使用如图3的刺激作为双眼竞争的测试材料，如左眼呈现部分猴子和部分文字的混合刺激，右眼呈现剩余的猴子部分和剩余的文字部分的混合刺激（左眼猴子部分与右眼猴子部分整合起来为一张猴子的完整图片；同理，双眼整合可以得到一张文字的完整图片）。而实验结果显示，被试知觉到的是完整猴子图片或完整文字图片（两张图片之间的竞争），而不是左眼刺激和右眼刺激的竞争。这表明，两只眼的信息进行了整合，并形成完整的有意义的知觉表征后，表征之间再发生竞争。由此证明了双眼竞争发生在视觉的晚期阶段。在Sheinberg和Logothetis（1997）的实验中，对被试的一只眼呈现横条纹，而另外一只呈现竖直条纹。在被试观察的过程中，实验者会交换两只眼的刺激（如一只眼原来看的是横条纹，交互后看到的是竖直条纹，另外一只眼相反）。如果双眼竞争发生在视觉通路的早期，那么被试除了会知觉到双眼竞争现象外，还应该在刺激交换的那一刻知觉到主导眼的刺激发生了变化，而实验结果显示被试没感觉到这种交换变化。因此否认了双眼竞争发生在视觉早期阶段的假设。Leopold和Logothetis（1996）认为，低级皮层主要负责视觉的编码和传输，受意识的影响程度较少，只有很少一部分神经元会在双眼竞争的时候有反应。

图3

二．双眼整合

1.现象

事实上即便在现实生活中，我们双眼接收到的图像常常是不一样的。即交替地一只眼睛闭着而另一只眼睛睁开，这时会发现两只眼睛看到的东西是不一样的，但用两只眼观察时却察觉不到这种差异，这可能说明了双眼的视觉信息在大脑中发生了整合。可以试试这么一种试验，一只眼睛出现遮挡而另一只眼没出现遮挡，比如当我们用两只手竖起两根手指，先闭着一个眼睛，然后调整两根手指的位置使近处的手指遮挡远处的手指。然后睁开双眼，当努力看着远处的手指时，这时给我的感受是我能看清远处手指，但它的周边会有一种奇怪的感觉。当然我也可以看近处的手指，这时远处手指也能地被感知到，但好像有一种模糊扭曲感。

这里还有一些有趣的现象。比如当两只眼睛出现不同情况的遮挡时，即每一只眼睛有另外一只眼睛看不到的东西的时候。如果使用双眼去看，会发现双眼能看到每只眼睛都能看到的东西，并察觉不到双眼遮挡的差异。如下图4，假设左图是左眼看到的图像（右眼闭着），即能看到按键N但看不到按键M；右图是右眼看到的图像（左眼闭着），即能看到按键M但看不到按键N。当双眼睁开的时候会发现，左右眼分别被遮挡的地方都能被察觉到，并且当双眼睁开并且注视手指时，有时会"看到"N在手指左边而M在手指右边，并且N和M居然"隔着"一个手指的距离（这里指的"有时会"看到""，是因为一些情况可能由于注意力或者双眼竞争，发现不了这种现象）。N和M明明是挨着的，但是为什么它们之间看上去会隔着一个手指呢？

图4

2.深度整合假设

在我们视觉中不是所有刺激都被双眼看到。有一些刺激两只眼都能看到，有些则只有一只眼。为了方便介绍，把双眼都能看到的视觉区域称为双目视觉区，把只有一只眼睛能看到的区域称为单目视觉区。

由于双眼视觉存在整合（单目视觉区能被整合到双目视觉区）。当注意到单目视觉区时，单目视觉区好像也有了双目视觉一样的深度知觉。这种深度知觉的来源有可能来自于两方面：一是深度线索（单目线索和眼动线索，7-3：深度），单目线索利用一只眼就能获取。而对于眼动线索（调整晶状体和瞳孔感知到深度），当未遮挡眼为了看清远处手指而调节晶状体和瞳孔时，遮挡眼也会作出这样的调整。这时，两只眼同时对焦到远处手指（虽然遮挡眼看不到），然后双眼（包括遮挡眼）的眼动线索反馈给大脑，经大脑的"脑补"（自上而下操作），从而有了远处遮挡手指（单目视觉区）的深度；二是格式塔知觉组织，单目视觉区与它周围的双目视觉区存在连贯性（比如两个区域的线条上的连续，颜色上的连续等），因此它们能自然的整合为一个整体，因此双目视觉区域便与单目视觉区域共享深度知觉（即双目视觉区的双目深度线索能对与它连贯的单目视觉区的深度感知产生影响）。比如图4的例子，N只有左眼能看到，M只有右眼能看到，它们是单目视觉区。但它们与周围的键盘（双目视觉区）连贯，因此N和M被感知到的深度也与周围键盘的深度一致。

3.三维整合假设

根据上面例子，随着单目视觉区的增加多和减少少，那么双眼的视野面积大小应该也会随之改变。通过下图作进一步说明，在图中，虚线是视线，视线的交点表示瞳孔中心，上方的横线表示视觉刺激，每个视觉刺激有其序号，图下方的序号所在的位置表示序号对应视觉刺激在视网膜中的位置。左眼单独看到的刺激是1、2、3、6，如图；而右眼单独看到的刺激是6、3、4、5，如图；由于这种情况没有盲区，因此这种情况下双眼看到的刺激是1、2、3、4、3、5、6；如果把遮挡"6"拿走，这时双眼看到的刺激是1、2、3、4、5、6，双眼与刺激的关系如图。因此，前一种情况（有遮挡物6）比后一种情况（无遮挡物6）的视野要多出一个视觉刺激6，视野面积会更大。这是如何做到的呢？

要解释这种现象的，我认为我们看到的并不是一个二维视野，而是一个三维视野，视野中各刺激除了有其上下左右坐标，还有其深度坐标。这是因为，在二维面积固定的情况下（双眼视网膜面积固定），所增加的视野面积只能出现在不同深度的面上。当注意力转移到某一刺激时，这个刺激会更清晰，而其他刺激会变模糊。当然这种整合是不完美的，双眼视网膜的不一致处可能会存在扭曲。如在手指遮挡键盘的例子中，当双眼打开并盯着手指看时，按键N在手指左边，按键M在手指右边，N和M之间"存在着一个手指的距离"。