9-27 视觉表象（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一．概述（宋丽波，2006）

1.定义

表象又叫意象或心象。如果是强调事物形象在心理活动中的再现，一般称为表象。比如闭上眼睛在头脑中想象一个苹果的形象。20世纪80年代以前，心理学家对表象所下的定义为：表象是在物体没有呈现在眼前的情况下，头脑中所出现的该物体的形象，或者是指当前不存在物体或事件的一种心理表征。20世纪90年代以后，对表象定义为：是形成"头脑中的图像"这一活动，也指积极回忆或操纵空间表征这种非言语思维过程的结果。

2.分类

表象有各种不同的种类。可以根据不同的角度或标准来划分。

（1）一般表象和个别表象

按表象的概括性分，可以有个别表象和一般表象。个别表象反映个别事物的特征，如某人的妈妈的形象；而一般表象则反映许多同类事物共有的、一般的特征。比如人类所有母亲的形象。相比个别表象，一般表象更有概括性。

（2）记忆表象和想像表象

按表象的功能分，可以分为记忆表象和想像表象。记忆表象是在人们过去感知事物的基础上，它是当事物不在面前时，在头脑中再现出来的事物痕迹的形象。记忆表象具有以下特点：（a）暗淡性、不稳定性和片断性，人们在头脑中提取事物的形象时，表象比感知觉具有更微弱的痕迹。所以，我们在回忆和提取时，与直接感知它的时候相比常常是暗淡的。由于记忆提取的困难，有时候，我们对事物的回忆往往是不全面的、不稳定的。如小学生课本里常常有鲜艳的春天的插图。但是，在对其回忆或提取时，有时只能记住图片中的一部分情景；（b）概括性，记忆表象具有概括性，它不是事物形象的简单再现，而是经过复合和融合，是对丰富而复杂的具体事物的概括。如让学生画教师的形象。学生们遇见的教师很多，每个教师特点都不同。张老师胖李老师瘦，孙老师高，赵老师矮等。小学生在绘画创作时会把老师的一般特点描述出来。如戴眼镜、面带微笑、手拿教科书，后面画一个黑板等，这就是小学生对教师的人物形象进行概括；（c）限制性，表象记忆的形成和发展受记忆的一般规律的支配。

想像表象是人脑在原有表象的基础上加工改造而形成的的形象。想像表象的种类有以下几种：（a）无意想像和有意想像，无意想像是没有特定的目的、不自觉的、低级形式的想像，如梦是无意想像的极端形态。有意想像则是有一定目的的、自觉的想像。有意想像在创造性思维中起重大作用；（b）再造想像和创造性想像，再造想像是对自己不曾感知过的事物，依据别人的描述而想像出来的形象。如学生在阅读历史书时，书中那些生动的叙述，如同一幅幅历史画卷展现在眼前。创造性想像是不依据现成的描述而独立创造出来的新事物的形象。

（3）各通道的表象

按表象刺激的性质以及刺激所作用的感觉通道的不同，可分为视觉表象、听觉表象、触觉表象、味觉表象等。

二．双重编码理论

双重编码理论由Paivio（1971）提出的，Paivio认为心理过程中的信息是按两种方式在记忆中进行表征的，一种是言语记忆；另一种是视觉表象。从这一基本观点出发，他把心理表征划分为两种不同的加工系统，即语词系统和表象系统。前一种是关于事物抽象概念的加工操作方式。具体是通过语词之间的联想所构成的，比如"计算机"这个词可以联想到监视器、键盘、终端桌等，同时也可以激活同计算机相关联的一些动作词汇，比如上机、编程、操作等等；后一种是关于客体或事件的视觉性、触觉性、听觉性等的编码和加工操作，比如我们在想到苹果时，那么就激活了一系列根据以往经验所形成的关于苹果形状颜色和味道等的表象，记忆中对这些表象信息的操作和加工具有类似于知觉的特征。

表象和词语概念这两种知识系统是通过后天经验的积累而习得的。有些信息类型，如具体的词汇能同时编码到两个系统里，如苹果即可以用一张图像表示，也可以用词语表示。而一些图像材料是不能用言语描述的，如人的脸孔和抽象的图画，它们只能在图像系统中编码。而有一些语言材料是很难形象化的，如抽象的词和短句，它们只能在言语系统编码，如正义、公平等。

表象系统和言语系统是相互独立的，这是指这两个系统在功能上是独立的，每一个系统可以不依赖于另一系统而独立进行实际操作。它们又是相互联结的，这是指一个系统的活动能引起另一系统的活动。如一些具体的语句或图片（苹果的词语和图片）能同时引起两个系统的反应；而抽象的词语或图片（词语"公平"和脸孔图片）只能在各自系统处理。由于两个系统既相互独立又相互联结，因此，对于某个符号（言语或图像）的记忆，如果既进行言语加工又进行了表象加工，则其记忆保持强度是两个系统单独活动时产生的保持强度的和，这种情况叫做相加效应。相加效应能解释在学习和记忆时具体单词与具体语句的优势现象，相比抽象的词，具体的词记忆效果更好。对于抽象单词，由于只有言语加工，因而让一个在记忆保存期间丧失语言编码，记忆提取就困难了。相反，对于具体单词，既有言语加工又有表象加工，丧失其中一种编码可以使用另外一种编码提取，因此记忆更好。（宋丽波，2006）

在一项研究中（Paivo，1975），研究者给被试看一些有一对图画或字词的卡片，让被试判断所画的两个物体或字词所代表的两个物体哪一个在现实中是较大的。他假设如果信息在大脑中只以语言编码，那么被试对图画材料作出判断要慢于对字词的反应，因为在作出判定之前，要将图画转换为言语编码；而如果信息也能以视觉编码，那么被试对图画的反应就不会慢于对字词的反应，因为视觉表象能够直接从记忆中得到，不用再做转换。结果表明被试对图画作出判定不仅不比对字词慢，反而更快；他还将图画分为两种，一种是卡片上的图画对与实际物体的大小一致（如画中的斑马大而台灯小），一种则不一致（如画中的斑马小而台灯大）。同样的，对字词的字体大小也作了类似的安排。如果长时记忆中包含视觉表象，那么一致的图对将会引起冲突，这时被试对该图对的反应将变慢，但字词不会引起这个问题。结果表明，对不一致的图对的反应时大于对一致的图对，但对字词的反应却没有这种差别。从上述结果看，在长时记忆中确实存在表象和语言编码两种形式。

后来，多重编码理论被提出。该理论认为长时记忆中的编码形式可分为三个水平。水平一是表象表征，它对外界刺激进行物理分析，加工语音、声调、刺激大小、形状、方向、细节等物理特征。水平二是心理表征，它包括关于听觉和视觉表象的模板信息，这一水平存储着听觉和视觉表象的基本特征而忽视了每个单词或物体的个别细节。水平一和水平二通过内省可以意识到。水平三是命题表征。心理表征和其他表征形式的区别是，相比表象表征心理模型忽略了诸如形状、大小等特征，不过与命题表征相比心理模型更具体些。（任国防，2008）

三．表象的加工理论

Kosslyn（1980）提出的表象计算理论是一个具有代表性的表象理论，它通过建构计算机模拟模型，对视觉表象的处理过程进行较为系统全面的阐述。首先，该理论区分了媒介和表征。媒介是一种能够承载表征的结构，其本身并不传递任何信息。表征则是处于媒介的信息内容。比如，黑板和蜡板是媒介，它们分别承载由粉笔痕迹所组成的表征。另外，该模型由一系列模块组成，每个模块对表征执行不同的操作。

1.媒介（Kosslyn，Brunn，Cave和Wallach，1984；林钰婷，张得龙和刘鸣，2018）

"视觉缓冲器"（视觉工作记忆的一部分）是视觉表象的媒介，它类似于一个坐标空间，是由许多点构成的一个阵列。在构建表象时，一些点会被激活（有不同激活程度）而其他点熄灭，使人产生相应的心理表征。这里的阵列好比电视屏幕的像素点阵列，而点好比屏幕上的像素点。如图1所示，以"车"作为例子，个体在生成表象时，大脑选择性激活矩形列阵中的单元格，但这些矩阵并不是简单地激活或未激活，它们具有不同的激活水平（如图中的A、B与C代表不同的激活水平）。这个阵列本身并不包含信息，它只是承载信息的载体，好比屏幕本身没有视觉信息，只有当电信息被传至屏幕时它才会作为视觉信息的载体将视觉信息显示出来。

图1

视觉缓冲器具有如下关键特征：（a）这个视觉缓冲器不但能被知觉信息激活，还能被形成的表象激活，因此表象与知觉类似，我们能"看到"表象；（b）一旦在视觉缓冲器中形成表象，它们就开始逐渐消退，即表象在视觉缓冲器的保持时间很短；（c）它具有空间的属性，它具有一个特定的形状------近似于圆形，且仅具有一个相当有限的范围；（d）它的最高分辨率部分位于中心，越往外周分辨率越低；（e）媒介的颗粒度限制了多小的物体仍能被"看到"；（f）其大小限制了多大的物体能被一次性全部"看见"（太大的表象无法观其貌）。

2.表征（Kosslyn，Brunn，Cave和Wallach，1984）

该理论认为表象主要有两种表征形式：表层表征和深层表征。表层表征即出现在视觉缓冲器中的视觉信息，如上图1中的汽车，其特点是容量有限且容易消退。深层表征是贮存于长时记忆中的信息，用于生成表层表征。它又分为本义表征和命题表征。本义表征使用坐标系统对视觉表征进行储存，即将客体信息通过一个坐标系统进行数字化表示和存储，指明客体各点在视觉短时记忆中的位置，形成客体的精确的表象。比如对于苹果的形状，可以用一系列的坐标点来描述其轮廓；命题表征包括物体的各类事实清单，用于解释客体的，包括客体各部分如何组合、位置关系、所属上位类别的名称和大小等等。例如，对于"汽车"，其部件清单包含前轮和后轮、方向盘和保险杠等事实。并且这些事实由命题表构成的，还如客体之间的位置关系"山上有一座房子"和上位类别名称"苹果是一种水果"等。

3.模块（Kosslyn，Brunn，Cave和Wallach，1984）

该理论认为对表象的加工由各种加工模块来完成，一个加工模块就是一种计算过程，每个模块都有特定的加工目的。这些模块包括：

（a）图示模块：将长时记忆中的深层表征转换为视觉缓冲器的表层表征。例如，通过激活车身的本义表征中存储的坐标点，从而生成汽车车身的图像；

（b）发现模块：对视觉缓冲区中的特定元素进行检测，如检查汽车上的车轮。因为图像可以以不同的大小和在不同的位置形成，因此目标元素的位置必须相对于其他元素进行描述，而不是在缓冲区中的绝对位置。如果元素（目标）的位置是相对于另一个元素定义的，那么在对新目标元素成像之前，必须先找到另一个元素进行锚定；

（c）放置模块：根据局部元素（比如，汽车的轮子（目标））与局部元素（比如，车身（锚定））之间的相对位置（相对位置可从命题表征获取），将客体的每个元素放置于正确的位置。放置模块需要图示模块和发现模块协调进行，首先需要根据命题表征查询目标元素相对的位置，然后图示模块将目标元素放置到该位置上。例如，汽车的车轮可能被描述为"位于轮拱内"。放置模块会利用这一信息，使汽车车轮的图像能够正确地融入到车身的图像中；

（d）加载模块：其功能类比于图示过程，只不过它是直接从人眼而非长时记忆中提取信息作为输入；

（e）分辨率模块：它以视觉缓冲区中的图案作为输入，并输出该图案相对清晰度的度量。这个处理模块是为了决定在寻找图像的某个部分时（需要发现模块）是放大还是缩小（人们所形成的表象大小有一定的范围，当表象过小时，个体无法识别表象物体上基本的细节；当表象过大时，个体无法看到物体的完整表象，即超出视觉缓冲器的范围）。它通常与放大模块和缩小模块配合使用；

（f）放大模块：放大表象，用分辨率模块监控这个过程，并用放置模块添加放大后的细节；

（g）缩小模块：缩小表象，用分辨率模块监控这个过程；

（h）刷新模块：表象一旦生成就开始"褪色"，只有通过努力才能得以保留。为了保持图像，需要使用刷新模块。该模块每次只刷新一个单元（即客体的一个部分）。由于该模块运行需要时间，如果表象存在太多单元，那么在任何一个单元褪色之前，不可能将所有单元都刷新一遍。这一特性对图像在某一时刻所能呈现的信息量设定了"容量限制"。另外，在"查看"表象的某个部分时（发现模块），图像总是会被立即刷新，以确保在尝试访问表象所代表的信息时，表象尽可能清晰。

（i）解析处理模块：对表象的内部结构进行重组。例如，六芒星图案可视为由两个重叠三角形构成，而解析处理模块可将其重新解析为"中央六边形且周围环绕着六个小三角形"。可以使用发现模块来检查这些子模块；

（j）扫描模块：Kosslyn提出了两种不同表象扫描加工过程。第一种表象扫描是在视觉缓冲器中移动注意窗口，即不移动表象只移动注意窗口。这需要在发现模块的引导下进行；第二种表象扫描过程是转换视觉缓冲器中的内容，这种机制依赖于表象中实现眼、头、身等部位移动的运动程序。这些运动程序能能使表象在视觉缓冲器中连续移动。

（k）旋转模块：对表象进行旋转操作，并用发现模块监控该过程，判断旋转后的表象是否符合要求；

（l）移动模块：相对于其他部分移动表象的某一部分（与扫描不同，扫描是整体上的移动），使用发现模块来监测这个过程。

4.表象过程（Kosslyn，Brunn，Cave和Wallach，1984；宋丽波，2006）

不同的模块参与的表象过程不同，一个表象任务通常需要几个模块协作进行。下面列举几个表象过程进行说明。

（1）表象检查过程

我们有利用表象从记忆中检索有关物体可见属性的能力。例如，当有人问驴子的耳朵是否尖的时候，被试会在驴子的表象中检查驴子的耳朵。这时需要用发现模块。另外，在使用发现模块之前，需要先用刷新模块保持图像，并用分辨率模块来确定表象是否处于正确的大小，如果有需要的话可调用放大模块和缩小模块改变分辨率。

（2）表象生成过程

如果表象的元素很多，在表象生成过程中通常是需要分步进行。首先成像的部分通常是中心部分或整体形状（例如汽车车身）。这部分仅使用图示模块进行成像。对于每个后续部分的表象形成（例如后轮）会使用放置模块，结合长期记忆中存储的或通过口头语言提供的各部分之间空间关系，发现模块会"寻找"该部分对应的位置，最后图示模块将新部分成像在复合物体或场景中的正确位置。根据这个生成算法，各部分是依次成像的，当成像部分越多，图像生成所需的时间也越来越长。

（3）形象思维

在视觉思维过程中运用的是表象的能力。例如，当决定以各种方式重新布置家具时，想象布置后的样子。这些能力不仅需要生成表象和检查表象的过程（如放置模块、发现模块和图示模块），还需要对表象进行各种转换的心理操作（如旋转模块和移动模块）。放置模块对于解释意象的创造性活动是必要的，能够产生先前所见物体的新组合，包括那些由对新场景的口头描述所唤起的意象（比如大象飞越月球的画面）。当人们想着一个物体在变化时，它经历着头脑中的操作过程，就像一个真实物体在变化时所经历的操作过程一样。

另外，在一个表象过程中，各模块的组合有一定的原则可循，如：（a）只要形成表象都要用到图示过程或加载过程；（b）要检查表象都要用到发现过程或刷新过程；（c）在根据表象做出某种决策的过程之前，在使用放置过程时，也常常要用到发现过程和图示过程配合使用；（d）所有模块的组合使用都遵循吝啬原则，即选用最少的模块联合完成任务。

5.实验证明

（1）心理旋转

Shepard和Metzler（1971）在他们的经典研究中向被试呈现一对由一些立方体所组成的三维线条的图形。被试的任务是比较这些图形，以决定它们在形状上是否相同。这些形状的区别在于以20度的差别向不同方向旋转或镜像反转（镜像反转后不是相同图案），如图2。实验发现，识别时间随着转动角度的增加而成线性地增加。这意味着被试对两个图形的比较方法是，想象一个图形以一种稳定的速度旋转到另一个图形相同的位置，然后再进行比较。因此，Shepard认为人在加工视觉的、空间的信息时，是用表象加工的。

图2

在Cooper和Shepard（1973）等人的心理旋转实验中，使用的实验材料是不对称性的字母（如R）或数字（如2），将这些材料取正反面以及六种不同的倾斜度，共12种情况。被试的任务是忽略材料的倾斜度，而判断材料是正面还是反面。实验表明，当旋转角度小于180度时，被试反应时间随角度的增大而增大；180度时，反应时最长；随着字母旋转角度的进一步增大，反应时不仅没有增加反而减少了。

（2）心理扫描

Kosslyn（1973）发明了一个心理扫描的研究范例，用以探索表象的空间特性。在记住一个物体的图画（如一只船的侧面像）之后，要求被试把物体视觉化（即形成该物体的表象），并集中注意于该表象的某一端处（如，船头）。然后扫视这个表象，以确定一个特定名称的部分（如船舵）是否属于这个表象中的物体。Kosslyn发现，完成该项任务所需的平均反应时与实际图画中的距离成正比。于是，他推断表象保留了真实物理世界的空间属性。后来，Kosslyn等（Kosslyn，Ball和Reiser，1978）在实验中向被试呈现一幅岛图，其中有树、山石、水井、湖、沙和草共七个对象。让被试熟记这张图之后，让被试在脑子里"注视"地图表象中的一个对象，然后按主试的指示快速找出第二个对象，找到后即按下电钮，记下被试扫视两个对象间不同距离的反应时，结果发现反应时与图中两个对象之间的距离成正比。这种心理上的表象的距离越近，反应就越快的效应被称为距离效应

（3）表象敏度的研究

在一个实验中（Kosslyn，1975）测量了被试回答想象中的动物是否具有特定的部分（如尾巴、鼻子等）所需要的反应时。实验要求被试想着正在看特定的动物如"狗和大象"或"狗和苍蝇"，然后在他们的表象中发现特定的部分。当被试想象的动物相对更大时（狗和大象中的大象），反应时减少；反之则增加。这表明人们是在有限的空间中形成表象的，或者说在人们的头脑中似乎有一个固定大小的银幕，而人们把两只动物放到屏幕上去量。例如，如果是大象和狗，那么大象将填满整个银幕，而狗将是细小的；而如果这两只动物是狗和苍蝇，那么狗将填满整个银幕，而苍蝇将是细小的。在后一种情况下，由于狗的表象大，耳朵就容易看见，所以反应时快；在前一种情况下，狗的表象相对地小，耳朵就难以看见，所以反应时慢。因此，表象与现实客体的知觉相似，视觉表象中的客体也有大小、方位等空间特性。在客体知觉过程中，小的客体总不如大的客体看得清楚，在表象过程中也一样。该效应被称为大小效应。

（4）多模块加工的证明

在Kosslyn等人（Kosslyn，Brunn，Cave和Wallach，1984）的一项研究中通过对比不同表象任务（如心理旋转、心理扫描、表象敏度等），分析表象能力是一种未分化的通用技能，还是由若干相对独立的子模块构成。这项研究的基本逻辑很简单：（a）如果意象能力是未分化的（即一个技能能应用于所有不同的表象任务），那么可以预期在一项意象任务中表现相对较好的人，在其他意象任务中也应有相对较好的表现；而在某项任务中表现较差的人，在其他任务中也应表现较差。换句话说，即所测的各项任务的得分具有高度相关；（b）如果每一项意象任务都涉及一组独特的独立"技能"，那么可以预期各项任务得分之间的相关性应几乎为零；（c）如果任务是通过使用某种少量的模块组合来完成的，那么任意两项任务之间的相关性将取决于它们所共用的处理模块数量------共用组件越多，相关性就越高。在这种情况下，相关性会呈现出广泛的范围（某些任务之间相关性高，某些任务之间相关性低）。因此，在实验中，研究人员对一组人进行了一系列不同表象任务的测试，最后证明了（c）的正确性。

6.表象过程参照系和整体优先效应

与知觉相似，表象任务也需要在一个参照系中才能完成。Mast等人（Mast，Ganis，Christie和Kosslyn，2003）探讨表象加工中各个参照系的作用（11-3：空间坐标），研究者让被试在直立、平躺和侧卧三种姿势下完成不同表象加工任务。结果发现，表象组合和表象检查任务受到身体姿势的影响，而表象旋转和表象产生任务不受身体姿势影响。这说明不同表象加工任务依赖于不同空间参照系。Corballis等（Corballis，Nagourney，Shetzer和Stefanatos，1978）考察了被试在头和身体与重力垂直方向一致或呈一定角度（0度到 60度）时的心理旋转能力，结果发现被试是把字母的表象旋转到与重力垂直方向来判断左右朝向的，而不是旋转到与头部或身体一致的方向上。这说明环境参照系在心理旋转中具有更强烈的作用。

Kosslyn（1994）考察了表象产生任务中的整体与局部的空间关系。结果发现，在知觉和表象条件下，整体均有助于局部细节的组织，同时在多部件（一个客体由多个部件构成）表象产生过程中也具有类似于知觉条件下的整体优先效应。在这个过程中，视觉缓冲器首先产生一个比较模糊的关于整体场景或形状的表象，称之为"骨架表象"，此骨架表象充当了产生其它部件表象的参照点，并且在必要的时候通过添加部件而对其不断地细化，直到所有部件都被添加完毕。

四．命题符号理论（任国防，2008）

1.基本内容

Pylyshyn（1979）认为，所有的信息都是以命题来表征的。言语信息和非言语信息都在同一概念系统内得到表征，概念是信息的基本单位，由两个或两个以上的概念联系在一起的句子称为命题（以概念为节点，概念之间的联结为边，它们所形成的三元组为命题），各种命题的组合叫图式或结构。命题是能够作为独立判断的最小知识单元，是思维活动的最小意义单元。所有的信息都是以抽象命题的形式来编码的。命题编码是一种抽象的意义表征，它不依赖任何一个感觉道，人在回忆时出现的表象或言语描述，就是从同一命题表征中产生的。个体不存储表象，只存储命题。个体所以能体验到内部表象，是因为在表征时将命题形象化的结果。

2.对知觉取向的否定

关于表象的理论大致可以分为两派。以Kosslym（1981）为代表的等人认为表象是一种类似知觉的信息表征，它在人的心理活动中有着自己的作用，即上述的表象加工理论，Pylyshy（2003）将之称为图片理论；而Pylyshyn（1981，2003）则认为，表象没有独立的地位和功能，不能用来解释心理现象，信息是以命题来表征的。表象中的图像只是附带现象，就像是阅读时灯泡所发出来的与阅读过程无关的热量一样，Kosslyn和Ganis（2003）将这种观点称为是虚无假设，也即命题符号理论。对于图片理论的实验证据，虚无假设的支持者主要从以下几方面批判，比如作业本身、实验者效应和不言自喻的知识等。

（1）作业本身导致了所需的特征

命题符号理论认为，表象加工理论的研究结果不能说明表象是一种独特的心理表征（表层表征和深层表征），用命题表征同样也能解释相同的实验结果。Pylyshyn（2003）认为几乎所有支持图片理论的研究都存在这样一个共同的问题，即当要求被试想象某个事物时，人们会"问"自己当看到这些事物时会怎样，然后会模仿真实看到这些物体时的反应，于是表面看起来知觉与表象是有关系的。如上述一些实验以一种有意或无意的方式引导被试以主试所预期的方式进行操作。使被试不由自主的对结果作出某种期待，从而使被试以某种特定的方式对实验作出反应。例如，Mitchell和Richman（1980）发现Kosslyn等人的研究中，被试可能猜到心理扫描的反应时会随扫视距离变化而变化，因此产生了反应时间变化的副现象。他在实验中让被试猜测扫视Kosslyn的地图上对图形所需的扫视时间。结果表明，被试的估计时间与扫视距离成正比。Pylyshyn（1981）在另外一项研究中同样让被试学习Kosslyn等人（Kosslyn，Ball和Reiser，1978）研究中的地图，但地图上每个物体处都有灯光。某一处的灯泡熄灭后会马上引起另外一个地方灯光的闪亮。要求被试想象该地图并把注意力集中到一个特定的物体上，然后想象开关关闭，第二个物体处的灯光闪亮。要求在心里看到第二个亮灯的物体时就尽快做出反应，这时没有出现距离效应。

（2）实验者效应

另外，实验者和被试在训练和测试阶段都保持了密切的接触，从而对被试产生影响。后来，Intons-Peterson和White（1981）在一个不知情的实验者的实验中不能重复得到Finke和Kurtzman（1981）所报告的关于表象敏度的相同结果。

（3）不言自喻的知识

想象与知觉类似的原因还可能由于人们所掌握的关于进行想象的不言自喻的知识（Pylyshyn，1981）。例如，在心理旋转的实验中，典型的旋转变化方式都是日常经验过的，对于物体的旋转、扩展等等，相应的不言自喻的知识是存在的。因此被试是利用这些知识回答实验的问题，而非依靠对表象的操作。针对Kosslyn（1975）的那项关于表象大小的研究，Pylyshyn（2003）认为当实验者要求被试形成较小的表象时，被试会不由自主地认为较小的表象其特征必然模糊，因此反应时会长。他怀疑说如果让被试把图片想像得较小但非常清晰时结果可能会是另外一个样子。Pylyshyn还说人们不能只根据对表象的操作而对世界有新的认识，例如当问你"白糖放到水里会不会漂浮？"或者问你"黄光和蓝光混合后会产生什么样的光？"，很显然你的回答会有赖于你以前的相关知识，如果没有先前有关色光混合的知识你是无法回答黄光和蓝光混合的问题的，而你很容易回答白糖漂浮的问题是由于平时就有太多这类经验。

据此图片理论的反对者认为表象与知觉的功能并不等价，表象没有自己独立的表征与功能，人们头脑也并没有类似知觉的图片存在，而存在的只是关于物体的命题。

3.虚无假设对图片理论实验结果作出的解释

除了在不同方面批评图片理论外，虚无假设认为用命题表征同样可以解释图片理论的研究结果。例如对于大小效应（Kosslyn，1975），Anderson（1978）指出，当被试构成一个较小的表象时，只有少数命题受到激活，因而细节的东西就不容易发现，导致反应时变长；相反，大的表象涉及较多的命题，细节就易发现，导致反应时变短。对于心理旋转的实验结果，Anderson认为命题也可一步步地转换为每个中间状态的命题，直到目标位姿的命题。被试只是进行命题的转换而并没有真正进行表象的旋转。

客体的视觉表征也可以以命题的形式被表征。如图3所示的轮船，其中加粗的文字代表轮船的各个部位，直线的长度代表轮船各个部位之间的距离，线条上的文字代表轮船各个部位之间的空间关系。通过这样的表征，可以推知：如果以发动机为起始点，相比找到舷窗而言，找到锚需要花费更多的时间，这是因为从发动机到舷窗只需要经过三个节点（概念），而从发动机到锚则需要经过四个节点。这在一定程度上解释了距离效应。（Goldstein（著），张明等人（译），2011）

图3

五．表象与知觉（Goldstein（著），张明等人（译），2011）

如前所述，对表象的表征有两种不同的看法，一种是认为表象没有独立的地位和功能，信息是以命题来表征的，表象中的图像只是附带现象（命题符号理论）；另一种看法是，表象在认知活动中具有独立的地位和功能，它是一种类似于知觉的信息（表象的加工理论和双重编码理论）。从如下生理学证据看，表象与知觉密切相关，并且它们背后共享部分的神经机制。

1.表象与知觉的重合

在一些研究中发现，一些神经元不但看到某些特定客体时有反应，而想象它们的时候也会有反应。比如一些神经元看到棒球或想象棒球时反应，而对面孔无反应；相反，另外一些神经元看到或想象脸孔时反应，而对棒球无反应。这种对特定客体知觉或想象时有反应的神经元被称为表象神经元。（Kreiman，Koch和Fried，2000）

Kosslyn和同事（Kosslyn，Pascual-Leone，Felician和Camposano等人，1999）将经颅磁刺激作用于人脑的视觉区域，并要求被试完成知觉和表象任务。在知觉任务中，屏幕上会短暂呈现图4那样的刺激，被试的任务是对其中两个象限中线条的长短或数目做比较。例如，他们可能需要回答这样的问题：第三象限的线条比第二象限中的线条更长吗？表象任务也是如此，但被试在看过四个象限的线条后，需要闭上眼睛，并根据他们所建立的四个象限的心理表象回答问题。Kosslyn对大脑视觉区施以经颅磁刺激，此外，作为控制条件还对大脑的另一个区域施以经颅磁刺激，并记录了两种条件下被试做出判断的反应时。结果表明，无论是知觉任务还是表象任务，当视觉区受到经颅磁刺激时，被试做出判断的反应时都会明显变长。

注：

经颅磁刺激，即一系列脉冲在人脑的某一特定区域作用几秒后，即可在几秒或几分钟之内削弱或消除这一区域的脑机能。在此期间，就可以对被试的行为进行测试。如果某种行为能力受损，即可说明这个被暂时负激活的脑区活动导致了这种行为受损。

图4

2.表象和知觉的分离

在神经心理学中的一些病例发现，表象与知觉之间也存在"分离"的现象。在一个病例中，病人RM的枕叶和顶叶都受到了损伤（Farah，1988），他能够正常地进行知觉加工（他可以识别客体，并能精准地画出放置在他面前的客体）；但表象能力却受到了破坏（他无法画出存在于记忆中的客体，而这个任务是需要表象参与的）。此外，他在回答一些依靠表象才能回答的问题时也存在困难（例如让他判断句子"葡萄柚比桔子大"是否正确时）。

在另一项病例中报告了相反的分离模式，即表象能力相对正常，但知觉能力受损。例如，Behrmann和同事（Behrmann，Moscovitch和Winocur，1994）发现病人CK无法利用视觉识别客体。如当向他呈现一些客体图片时，他会将"飞镖"认作"鸡毛掸子"，将"网球拍"认作"击剑面罩"。这些结果表明，CK能够识别客体的各个部分，但无法将它们整合成一个有意义的整体。值得注意的是，尽管他不能正确地识别图片中的客体，CK却能够依靠表象精确地画出记忆中的客体。更有趣的是，经过一段足够长的时间，当研究者再度向他呈现他自己画出来的客体时，他还是无法对客体进行识别。

3.表象和知觉的加工通路

表象和知觉既存在重合又存在分离，于是Bebrmann等人（Behrmann，Moscovitch和Winocur，1994）提出，知觉和表象的机制只有部分重合，知觉的机制位于较初级的和较高级的视觉中枢，而表象的机制则主要位于较高级的视觉中枢，如图5。依照这种观点，视知觉必需涉及自下而上的加工，光线信号会沿着视觉通路传达至视觉皮层，随后到达更高级的视觉中枢。在知觉中，视觉皮层先按不同要素（如边缘、朝向等）对客体加以分析的。分析后的信息随后会被传送到更高级的视觉区域，在那里被知觉到的信息可能会被重新组装起来，并进行一些涉及个体先验知识的自上而下的加工。相反，表象则源自一个自上而下的加工过程，此过程发生在负责记忆的较高级的脑区。也就是说，心理表象是"事先组装好"的，它们不依赖于视觉皮层区的分解与重组激活，因为没有需要加工的输入。

图5

六．眼动与表象构建过程

1.表象的眼动现象

通过对知觉和表象加工过程的对比研究发现，知觉眼动和表象眼动均不是杂乱无章的，眼动模式与知觉和表象的内容紧密相关，且表象眼动与和知觉眼动的轨迹具有极高的相似性。Brandt等人（Brandt和Stark，1997）的实验中，首先让被试看一张图片，在脑海中形成视觉表象，然后再看一个空白的屏幕，让被试睁开眼在屏幕上想象刚才见过的画面。结果发现，想象时的扫描路径与被试之前浏览该图片时的路径很相似。

然而，眼动在表象的建构中起着什么样的作用呢？关于表象建构中的眼动机制的观点，可概括为以下两种：一种是眼动对表象的产生起机能性的作用；另一种是眼动只是表象产生过程中的一种副现象。

2.机能性解释

该理论认为，在知觉阶段，对眼睛注视的位置进行编码，且眼动与主体知觉到的信息一起被储存起来，这些编码信息作为图象中位置的索引，参与到表象阶段。在提取过程，表象各部分是通过再现知觉过程的眼动模式而产生，即眼动信息会影响表象的生成，眼动以与知觉同样的顺序再现。（Laeng和Teodorescu，2002）

Hebb（1968）最早明确提出，眼动是表象产生的必要条件。眼动是视觉知觉和视觉表象中内在的一种元素，他认为如果表象是知觉加工的再现，那么这一加工就应该包括眼动。因为在知觉过程中，眼动有利于把表象的各部分整合在一起，从而形成完整的视觉表征。当人们在对熟悉的物体（比如一艘划艇）构建一个视觉表象时，物体的各个部分并不是一下子在脑海中同时呈现的，而是相继地、逐渐地在脑海中变得清晰（比如先呈现艇身，然后相继呈现其他一些细节）。类似地，当我们在知觉一个真实的物体时，是通过一系列的眼动对物体的各个部分进行注视。

在知觉中，眼动起着使我们能够获得准确而清晰的整体信息的机能性作用，它即是一个自上而下过程，又是一个自下而上过程。但是，表象建构没有任何相关视觉信息的输入，它是大脑通过对已有记忆信息的提取与加工来完成的。可见，表象眼动应该是一个自上而下的主动过程。表象是知觉表征的"自上而下"的加工，并认为表象越好，则眼动就越有可能参与其中。（严艳梅，2006）

3.副现象解释

与功能解释说不同，副现象解释认为眼动行为在心理表象期间是自然发生的，是由在内部检查图像过程中注意内隐转移引起的被动溢出。注意的潜在转移会引起眼睛注视点的转移，并且注意转移领先眼动向同一位置的转移。因此，当人们对图形进行表象时，注意脑区的神经元就开始放电。注意与眼动在脑区的这种联结性使得在表象的同时，产生了相应的眼动，但这种眼动与表象无关。按照这一观点，表象的同时性眼动就只是一种表象"检索"过程的"副现象"。眼动和表象之间不存在机能性的关系。（Laeng和Teodorescu，2002）

4.实验验证

Laeng等人（Laeng和Teodorescu，2002）的实验对副现象理论提出了质疑，并认为眼动对表象的产生起到机能性作用。Laeng和Teodorescu的研究包括两个实验。在实验一中，视觉刺激为一个6x6的西洋棋盘，其中有5个可随意变动的黑色小方块。被试的任务是尽量记住棋盘中黑色方块的位置，并在实验的最后阶段加以检验。一组被试在知觉过程中保持注视点固定于中心位置，但在表象过程中双眼可自由移动（简称A组）；另一组被试在知觉与表象两个过程中均可以自由移动双眼（简称B组）。主试通过眼动仪记录被试双眼移动情况。研究者发现，A组被试在表象中几乎无眼动现象发生，这与副现象理论相违背，根据该理论由于表象过程中有注意的转移，因此也有眼动的产生；而B组被试在表象过程中有眼动现象发生，其眼动轨迹与知觉过程的眼动轨迹相似。且知觉眼动和表象眼动的扫描轨迹相似性越大，被试的空间记忆效果越好，其表象的精确性越高。该结果与机能性解释一致。在实验二中，研究者增加了一个实验条件，即被试在知觉过程可以自由移动双眼，但在表象过程中必须保持注视点于中心固定点上（简称C组）。结果发现，C组被试所形成的表象精确性比A和B组的差。研究者认为，这是C组实验条件阻止了被试运用眼动记忆来建构表象。由此，研究者反对眼动的副现象理由，并认为眼动现象对表象的产生起到机能性作用。

七．形象思维

视觉表象在科学发现活动中扮演着重要的角色，比如爱因斯坦提出相对论就借助了视觉表象的力量。

1.力学问题（Goldstein（著），张明等人（译），2011）

在解决力学问题的过程中，表象也能起到重要的作用。如图，图中显示了3个问题。问题1是齿轮问题，如果图中这五个齿轮彼此啮合，那么当第一个齿轮顺时针方向旋转时，则第五个齿轮的旋转方向是什么？解决这个问题的方法之一可以用心理模拟------对力学系统进行心理表征，并对其进行操纵。如想象第一个齿轮顺时针旋转、第二个齿轮逆时针旋转、第三个齿轮顺时针旋转，并以此类推。另一种解决齿轮问题的途径是使用基于规则的方法（基于命题符号理论，使用命题推理），比如"当一个齿轮转动，它旁边的那个齿轮会向相反方向旋转"或"所有奇数齿轮都向同一方向旋转"等。创建表象是解决力学问题的有效途径，但并非唯一的途径。事实上，也有证据表明个体在解决些力学问题时，会先使用心理模拟的方法，然后再使用基于规则的方法。（Schwartz和Black，1996）

问题2是水溢出问题，图中这两个玻璃杯的高度是相同的，且被注入了相同水位高度的水。当它们发生倾斜，两个杯子中的水会在相同的倾斜角度开始溢出，还是会在不同的倾斜角度开始溢出?如果是不同的倾斜角度，那么是哪个杯子中的水先开始溢出？为了便于理解，将宽口玻璃杯套在了窄口玻璃杯的外面（如图6）。可以发现，当宽口玻璃中的水即将溢出时，窄口玻璃杯中的水距杯口边缘还有一段距离。因此，窄口玻璃杯需要倾斜更大的角度，杯中的水才能开始溢出。对于该问题，Schwatz和Black（1999）在实验中发现当要求被试回答水溢出问题，且不给他们对问题进行推理或使用心理表象的时间时，多数被试都会错误地认为两个玻璃杯的水会在相同的倾斜角度开始溢出。然而，当研究者告诉被试可以闭上眼睛并想象开始倾斜的玻璃杯，几乎所有被试都"看见"了窄口玻璃需要倾斜更大的角度，水才能开始溢出。

问题3是滑轮问题，如果你拉动绳子的一端（箭头处），图7中下方的滑轮会顺时针旋转吗？Hegarty（1992）发现，当要求被试解决滑轮问题时，他们判断下面的滑轮旋转方向所花费的时间要明显长于判断上面的滑轮旋转方向所花费的时间。在这个结果的基础上，Hegarty进一步测量了当被试解决问题时会关注哪里。她推断，在解决问题的过程中，被试并不是立即将全部力学系统都想象出来的，而是会首先确定上面的滑轮的旋转方向，然后再判断这个旋转方向会对第二个滑轮产生什么影响，并以此类推。换句话说，被试会按照一定的顺序来考虑系统中的每个部件。

图6

图7

2.线性三段论（宋丽波，2006）

线性三段论，是依据有序事物间的关系进行推理，这个有序事物通过给出的两个前提说明三个逻辑项之间的可传递性关系。如"小王比小张高、小李比小张矮、小王比小李高吗？"。在这个推理中，人们将小王、小张和小李视觉化和形象化，并把他们以视觉表象的形式在脑内进行高、矮的空间排序，从而进行合乎逻辑的推理。

3.问题解决（宋丽波，2006）

问题解决是一种重要的思维活动。表象在解决某些空间作业上的作用是很明显的。如果有一个大立方体，四周是红色，上下为蓝色，垂直和水平方向各切两刀，使之成为27个小立方体，问有红和蓝色表面的小立方体各多少？在解决这种问题时，表象提供了较大的帮助。又如，一些有经验的棋手在考虑怎么下棋时，也使用了表象。