9-13 视知觉组织（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

知觉组织过程涉及两个成分：组合和分割。组合是视觉元素被"拼凑"成单元或客体的过程。组合过程是伴随着分割过程的。后者是将一个区域或对象从另一个区域或对象中分割出来的过程。比如在一片高楼林立的场景中，一些视觉元素（像素点、玻璃、瓷砖等）被组合成一座座建筑，这是一个组合过程；而分割过程则需要将场景中的不同建筑分开。这些过程构成了知觉客体的基础。

一．构造主义（Goldstein和Brockmole（著），张明（译），2018；Schiffman（著），李乐山等（译），2013）

在图像中存在多个"点"（像素点或者每个感受器），这些点都是互相独立的。而一个完整的刺激（如图1上的人像）需要多个点叠加而成。所以我们的大脑一定存在某种组织机制。这里有两种观点，构造主义和格式塔主义。构造主义学家认为，感觉和知觉关系应如原子和分子的关系，感觉组合起来可以形成知觉。

该理论很直观，但也它的有缺点，它无法解释下面两种现象。第一种是似动，它表示多个位置或形状不同的闪光相继快速出现，使人产生连续变化的运动错觉。视频实际上就是利用这种原理，它由一张张图片相继出现形成，而非画像"在动"。图2显示的是似动的一个例子，首先一个亮点闪现，然后黑屏，然后另一个亮点闪现，当黑屏的时间足够短时（少于1秒），两个点就会形成运动的错觉。按照构造主义的说法，运动知觉应该需要对真实运动进行感知，但是似动并无真实运动产生。另一个无法解释的现象是主观轮廓。主观轮廓指，仅根据图像的一些线索，能在图像空白区域产生边缘或轮廓的错觉。如图3，对比图（a）和图（b），图（b）更容易知觉到是一个三角形，就好像三条边是真实存在的一样，如果加一些辅助线（图（c））这种知觉则更加明显。但这里并无真实的边存在，按照构造主义的说法应该无法形成三角形的知觉。

图1

图2

图3

二．格式塔

对于上述现象，格式塔心理学家给出了新的解释，他们认为整体并不等于部分之和，而是整体大于部分之和。具体的说，知觉的组织可以分为组合和分割两个过程，下面是格式塔心理学给出的组合和分割的一些原则。

1.组合

格式塔心理学家提出了知觉过程中的数条知觉组合原则，组合原则源于环境中经常发生的事情，并决定了场景中的元素如何组合在一起。这些原则包括：

（a）连续性，指的是如果端点或线段连接起来的时候能形成一条直线或者平滑曲线，那么这些元素会被倾向于看成是处于同一条线上的。如图4（a）所示，即使绳子有多处被遮挡，但是仍然可以被知觉到是一条连续的线条；

（b）接近性或者邻近性，表示相邻的元素会被倾向于看成是一个整体，如图4（b）根据距离分成的3组蜡烛；

（c）相似性，有着似特征（颜色、形状等）的图案会更倾向于组合在一起，如图4（c）；

（d）闭合性，表示如果一些不连续的元素可以是一个熟悉整体的不同部分，知觉会倾向于将它们视为一个整体。如图4（d）左图所示，人们不会把它们感知为三个独立的图形，而倾向于感知为一个椭圆形和一个矩形。如图4（d）右图所示，人们更倾向于将它们感知为一个个正方形，而不是一个个开口；

（e）共同区域性，在同一个区域的元素会更倾向于看成是一个整体。如图4（e），在椭圆区域中两点的距离虽比圈外的大，但仍会将区域内的点看作一个整体，这时共同区域战胜了接近性；

（f）一致联通性，与共同区域类似，只是将区域换成连线。如图4（f），有线连接起来的不同元素更容易被看成是一个整体；

（g）完形律或良好图形原则，个体会倾向于用最简单的方式知觉刺激。衡量完形律有一个重要指标，信息量。良好的图形应该要尽可能的少信息量，信息量越少被感知的可能就越高。如图4（g）中人们更倾向于将它们视为5个环，而不是9个形状；

（h）熟悉律，越熟悉的事物越容易被组织在一起，比如图中的斑点狗；

（i）表面重叠，表面重叠是解释主观轮廓的一个原则。当一个"图案"对更多其他的图案造成覆盖时，该图案越容易被知觉为一个整体。如图4（i）和图3，周围的线索的增加对三角形的感知；

（j）共同命运原则，朝着共同方向运动的元素更倾向于被看成是一个整体。如一群飞鸟；

（k）似动原则，如图2；

图4（a）

图4（b）

图4（c）

图4（d）

图4（e）

图4（f）

图4（g）

图4（h）

图4（i）

这里需要说明的是，这些原则并不局限于二维图案，也可以是三维的，如图5。

图5

另外，在许多情况下，这些原则都不是孤立的起作用。它们共同作用于知觉感知。如图所示，这里使用了连续性（连接被遮挡的线）和闭合性（形成熟悉的长方形或长方体），因此将它们感知为两个长方体而非三个独立形状。另一个例子是北斗七星，它也是利用连续性和闭合性的格式塔原则。

2.分割

知觉分割即是将一个客体从另一个客体中分割开来。研究知觉分割的一种方法是思考图形-背景分割的问题。当我们看到一个单独的客体时，它通常被看作是一个从背景中脱颖而出的图形。例如，坐在你的办公桌前，你应该会将你桌子上的一本书或一篇论文视作图形，而将桌子的表面视为背景。或者当你从桌子旁退一步后，你可能就会将桌子视为图形，而将周围的墙视为背景。

（1）图形和背景的属性

格式塔心理学家研究图形和背景属性的一种方法是考察如图所示的图案，因为它可以在两种知觉结果间变换，既可以被视为一个灰色的背景下彼此注视的两张深蓝色面孔，又可以被视为深蓝色背景下的一个灰色花瓶。一些图形和背景的属性如下：

（a）图形比背景更"像某种物体"，并且更容易记忆；

（b）图形看起来在背景的前面。因此当花瓶被视为图形时，它似乎是在深色背景之前；当面孔被视为图形时，它们似乎是在浅色背景之前；

（c）在同图形邻近的边界处，背景被视为不规则的，没有特定的形状，而且似乎是在图形背后延伸开来；

（d）将图形从背景中分割开来的边界看起来属于图形。例如，如图6，当面孔被视为图形时，两个图形之间的边界属于面孔。边界属于其中一个图形的属性被称为边界归属。

图6

（2）基于图像的因素的图形-背景分割

（a）基于位置

基于图像的因素之一是，视野中较低的区域更有可能被感知为图形。这个想法在若干年后由Shaun Vecera及其同事（Vecera，Vogel和Woodman，2002）证实。在实验中，他们给被试呈现150毫秒如图7所示的刺激，需要被试判断哪个区域更有可能会被视为图形（红色或绿色）。结果显示，对于上下结构的刺激，被试更倾向于将下部区域感知为图形。但对于左右结构的刺激，他们对左边区域仅表现出了很小的偏好。因此研究者认为，在确定图形时并不存在左右偏好，但存在上下偏好。这与我们每天感知到的典型场景相符。在我们的日常经验中，"图形"更有可能位于水平线的下方，而天空为背景。

图7

另外一个是相比远距离的物体，近距离的物体更容易被认为是图形。

（b）基于凸面

另一个观点是，边界凸面（向外凸出的边界）的区域更有可能被视为图形。Peterson和Salvagio（2008）通过图8所示的刺激证明了这一点。实验要求被试指出红色方块是否位于图形上。结果与该格式塔的观点相一致，即被试更愿意判断黑色区域为图形。

图8

（3）基于经验的图形-背景分割

关于经验对图形-背景分割的作用，不同学者有不同的观点。一些知觉格式塔心理学家认为，图形-背景分割可能会受到经验的影响，但内置原则可以覆盖经验的作用。即过去的经验和刺激的意义在知觉组织中起着很小的作用。如图9（a），大多数人认为图为"W"位于"M"的上方，这在很大程度上是基于过去的经验。然而，当呈现的是图9（b）时，大多数人看到是两条竖线及它们之间的图案。这种由良好连续性原则产生的竖线成为了主导性知觉，覆盖了过去对W和M的经验所产生的影响（Wertheimer，1912）。因此，这些格式塔心理学家主张，图形必须从背景中脱颖而出后才能得到识别。换言之，在我们给图形赋予意义之前，它必须先与背景分割开来。过去的经验和刺激的意义在知觉组织中作用不大。

图9

但也有其他学者持反对意见。在Gibson和Peterson（1994）的实验反驳了这个观点，当他们将图10中这样的刺激只呈现了不到1秒，并问被试哪个区域看起来像是图形时，发现被试更有可能将黑色区域视为图形。这可能是他们意识到黑色区域是一个与女性相似的客体。当Gibson和Peterson把图片如图（a）所示进行倒置，使得黑色区域更不容易被识别为一个女人后，被试将黑色区域报告为图形（图（b））的可能性就降低了。因此，意义能影响将某区域视为图形。识别过程发生在图形与背景分割之前，又或者是同时发生。

图10

3.组合的一般原则假设

以上描述了一些格式塔原则，实际上，这些原则并非孤立存在，而是相互之间存在一定的重合。例如，闭合性和完形律，它们的组织方式均旨在使图形显得更为简洁和熟悉。我认为，这些原则可以抽象为更为普遍的准则。为了与上述具体原则相区分，我将这些抽象出的准则称为"一般原则"，而将之前所述的格式塔原则称为"具体原则"。经过归纳总结，一般原则主要包括：属性聚类、经验匹配和简单图形。

属性聚类是指可以通过相似的属性将元素聚类起来。在具体原则中，大部分都存在着属性聚类，不同的是不同具体原则使用了不同的属性。连续性使用的是线条的方向属性和位置属性，因此，方向相似和位置相近的线条会被组织起来，形成一条连续的线条；闭合性和表面重叠同样也使用了元素的边的方向和位置属性，这样它们被分割的边才能被连接起来，形成一个封闭的图形；接近性使用的是位置属性；共同区域性和一致联通性使用的标签（或成员）属性（被组合的元素同属于一个更大范围的元素，就像是这个大元素的成员一样），即因为标签的相似或相同而被聚类在一起；相似性使用颜色和形状等视觉属性；共同命运原则使用运动属性（包括速度方向和速率）和位置属性进行聚类，聚类的结果就是把一个具有类似运动模式和位置相近的群体当作是一个整体的运动；似动使用了物体的视觉属性（形状和颜色）、位置属性和时间属性（时间接近的能被聚类在一起）进行聚类，这是因为视觉属性相似，位置和时间相近，所以前后两个客体才会被知觉为同一个，然后才会有似动现象。

经验匹配是一个至上而下的过程，将经验图式与刺激匹配，从而形成一个整体。连续性原则会将被组织起来的离散边（通过属性聚类的方法）与一条完整边的图式相匹配，最后才会有连续边的知觉。闭合性和表面重叠也有同样的原理，即需要刺激与记忆中的形状或意义相匹配，然后才会形成熟悉轮廓的知觉。完形律和熟悉律同样是需要刺激与记忆中的形状或意义进行匹配。上下分割原则（视野中较低的区域更有可能被感知为图形）与日常经验有关（相当于一种经验匹配）。比起天空，我们通常会把地面上的物体看着前景；比起远处物体，我们对近处物体关注更多。显然，基于经验的图形-背景分割也是基于经验匹配。

实际上，在使用经验匹配时，我们通常倾向于选择最简单的图形进行匹配，这遵循了图形简单的普遍原则。连续性体现在使用直线或平滑曲线（相较于"崎岖"的线条或分割的线段，这些线条更为简洁）。闭合性、完形律和表面重叠使得图案在整体上更易于理解。似动现象也符合图形简单的普遍原则，例如图2所示的两点之间的直线运动（直线运动相较于其他运动形式更为简单）。那么，何谓"简单"呢？熟悉感是一种"简单"，但除此之外还有其他因素。圆被认为是最简单的图形，正如下图11所示，方格交点的空白处形成了圆的主观轮廓（完形律认为简单图案更容易被感知）。为何圆被视为最简单的图像？一种解释是它的信息量最少，仅需一个半径参数即可描述。而对于正方形，除了边长，还需考虑其旋转角度，因此正方形需要两个参数来描述，例如下图12三个边长相等的正方形，因旋转角度不同而呈现不同的视觉刺激。相反，无论圆如何旋转，其给人的视觉刺激始终如一。同理，长方形则需要三个参数来描述。对称图案之所以信息量少，是因为人们只需记住其一边的特征即可。

图11

图12

最后，总结具体原则和一般原则的对应关系，如表1。

表1