20-2 工作记忆（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一.工作记忆的提出

在多重存储模型中，短时记忆仅被描述为一个存储装置。但事实上，很多事情我们不但要对被注意的信息进行存储，还需同时对这些信息进行加工。比如计算"12*3"，我们不但要在工作记忆存储数字"12"、数字"3"以及它们的乘法关系，为了得到乘法结果还需进行运算。具体过程如下例1。

例1：计算12*3

存储：12*3

加工：12*3=10*3+2*2

存储：10*3+2*3

加工：2*3=6

存储：10*3+6

加工：10*3=30

存储：30+6

加工：30+6=36

存储：36

另外，多重记忆模型认为，当个体在进行某一任务时该任务就会占满整个短时记忆，从而无法进行其他任务。但正如俗语所言"一心二用"，我们通常能同时进行多种任务，比如游戏主播一边游戏一边作解说，这与多重记忆模型不符。

基于上述问题，Baddeley和Hitch（1974）提出了工作记忆。工作记忆是对短时记忆的改进，它除了是一个容量有限的用于暂存记忆的装置，还能同时对记忆进行理解、判断、推理等各种操作。另外，工作记忆包含一系列的成分，能同时进行不同任务的操作。这时，短时记忆可以看作是工作记忆中用于暂存信息的那一部分。

二.三成分模型与四成分模型

1.三成分模型

Baddeley和Hitch（1974）的工作记忆模型如图1所示。该模型包含3个成分，因此又被称为三成分模型，包括语音回路、视觉空间画板和中央执行系统。

图1

（1）语音回路

语音回路负责暂存和加工语音信息，它包含语音储存和发音复述控制两个子系统。前者用于语音储存，约能保持语音信息1至2秒的时间；后者是通过内心默读的方式维持语音信息的激活，防止其衰退。如果材料是符号、图形等形式，可以将其转换为语音后置于语音回路中存储和处理。

（2）视觉空间画板

视觉空间画板主要负责暂存和加工视觉空间信息。它由两个子系统组成，分别为视觉子系统和空间子系统。其中视觉子系统与视觉客体有关（如颜色和形状）；空间子系统与视觉客体的位置有关（Baddeley和Hitch，1997）。还有理论认为，视觉空间包括视觉缓存器以及内部抄写器。前者主要被动地储存眼睛所获的视觉信息，后者参与视觉和空间信息的操作与复述（何桂华和梁娟，2013）。

（3）中央执行系统

中央执行系统是工作记忆的操作控制装置。它的主要功能是通过控制注意焦点，协调语音回路与视觉空间画板的工作。比如，在一边开车一边打电话的时候，需要视觉空间画板对路标和街道进行视觉化处理，同时需要语音回路处理电话交谈的内容。

（4）与长时记忆的结合

对于上面的例子，不论识别路标还是电话交谈，都需要长时记忆的知识支持。比如，需要记住了路标才能明白路标的意义，或者电话的内容是关于上周的工作（需要从长时记忆中提取）。因此，中央执行系统还有一项功能就是，在需要的时候，将信息从长时记忆中取出来。Baddeley等人（Baddeley，Papagno和Vallar，1988）将三成分模型修改进为三层级，第一层是中央执行系统，第二层是视觉空间画板和语音环路，第三层是长时记忆系统。第一层与第二层代表液态认知系统（如注意和信息的暂时存储），属于先天能力，不能直接通过学习来改变。第三层代表晶态认知系统，属于后天习得能力，与知识和经验的积累有关。

2.四成分模型

（1）三成分模型存在的问题

工作记忆的三成分模型解决了多重记忆模型的很多不足，但也存在一些问题。比如，很多信息都是语音和视觉的复合体，比如单词"游泳"，既包含了其发音，同时还包括一个关于游泳的视觉场景。而三成分模型中视觉空间画板和语音回路是分离的，无法解释各类整合或捆绑信息的存储。

（2）四成分模型

为了解决上述问题，Baddeley（2000）提出了四成分模型。与原来三成分模型的区别在于增加了一个情景缓冲器。情景缓冲器由中央执行系统分配注意控制，用于存储不同信息通道整合后的信息，也可存储从长时记忆中提取的复合信息（如从长时记忆中提取一个包含声音的电影片段）。这个模型假设不同信息的整合是主动的，需要中央执行系统分配注意参与。如图（a），视觉空间画板和语音回路的信息要在中央执行系统处理过后才进入情景缓冲器。但也有研究认为这种整合可以是自动的，不需要中央执行系统提供注意。如图（b），视觉空间画板和语音回路的信息直接进入情景缓冲器中合成，可以不经过中央执行系统处理（Baddeley，Hitch和Allen，2009；Karlsen，Allen，Baddeley和Hitch，2010）。

图2（a）

图2（b）

情景记忆一个重要的存在意义是，保存中央执行系统对信息整合后的结果，为剩余的操作创造条件。比如在阅读长句时，如果以词为记忆单位，其长度超过了短时记忆的存储容量。而中央执行系统将词整合为短语形成更大的组块，这些包含语义信息的组块（整合了各种感知觉）存储于情景缓冲器中，然后短语等组块单位又可整合为分句...。这种机制为阅读长句提供可能。

三.中央执行系统的功能

在工作记忆中，中央执行系统处于中心地位，其功能主要体现在两个方面：一方面为不同的子系统、长时记忆搭建沟通的桥梁，另一方面对注意资源的控制，对策略的选择和计划等等。那它具体的运作方式是怎么样的呢？

1.功能归纳

Baddeley（Baddeley和Hitch，1974）最早把中央执行系统描述成"就像一个装碎布的口袋一样，里面塞满了各种复杂的策略选择、计划，以及提取检测等"。

Smith和Jonides（1999）对中央执行系统的功能分为以下几个方面：一是计划，为了完成某一目标，需要将任务切分为几个子任务；二是任务管理，即在不同（子）任务之间进行切换，使注意从一个任务转换到另一任务中；三是注意与抑制，即把注意集中在相关任务或信息上，并抑制其他无关任务或信息；四是监控，即监测或更新工作记忆中的内容，并决定下一步的（子）任务；五是编码，即对任务或信息的发生时间和地点进行编码。

Baddeley（1996）后来又提出该系统具有的四项功能：（a）负责各子系统之间的协调；（b）对任务相关的内容集中注意，并排除其他干扰；（c）当发生突发事件时，积极进行处理，直至问题得到解决，这与认知控制中的监控注意系统相似；（d）把长时记忆的相关信息提取出来，并进行相关操作。

Collette等人（Collette和Van der Linden，2002）将中央执行系统的功能分为：对工作记忆的内容进行更新；对无关信息或任务进行抑制；在相关信息或认知操作间进行转换；双任务的协调，即在两个任务间分配合适的注意资源。

...

2.功能分析

不同研究者对中央执行系统的功能归纳大同小异，下面选择几项重要功能进行论述，包括转换功能、更新功能、抑制功能以及记忆提取。

（1）更新功能

更新功能，即根据新呈现的信息（由外部或长时记忆中输入，或者由中央执行系统计算获得的），对工作记忆中的内容进行持续修正的能力。这一功能要求对新进入工作记忆中的信息（呈现新信息）进行监控和编码，使之与当前进行的任务相关（编码过程），然后再适当的修正工作记忆中的项目，用新的信息来代替那些不再与当前任务相关的信息（更新过程）（Collette和Van der Linden，2002）。举例说，在计算"4+5+7"的过程中，中央执行系统先计算"4+5"并获得新的信息"9"（呈现新信息），该信息等价于计算任务"4+5+7"前两位数的运算（编码过程），因此可以使用"9"替换"4+5"，得到新的工作记忆"9+7"（更新过程）。另外，Smith和Jonides（1999）曾指出这一更新过程还可能包括"暂时贴标签"的操作，以指明哪些信息是旧的并且不再相关的信息。

（2）转换功能

转换功能，即在不同信息或任务之前的切换，它主要是通过转换注意力实现的。Collette 等（Collette和Van der Linden，2002）列举了三种形式的注意转换，包括在同一刺激物中不同知觉维度间的注意转换（比如颜色到形状的转换）、同一刺激物的不同知觉水平之间的注意转换（比如从低注意水平切换到高注意水平。因为对一个事物的注意提高，意味着对另一事物的注意减弱，因此这种转换也可以看作事物之间的注意转换）、不同任务间的转换。通过注意力的切换，就能实现不同特征、不同事物及不同任务的切换。

（3）抑制功能

抑制功能可以使工作记忆的资源流向相关任务，否则如果任由无关信息进入工作记忆，侵占有限的工作记忆空间，留给相关任务的资源就会减少，从而导致认知加工效率的降低。Collette等人认为抑制的内容包括：（a）防止与目标任务无关的信息的介入；（b）抑制不符合情景的反应（动作）的进入；（c）防止存储记忆中不相干的信息的二次激活（Collette和Van der Linden，2002）。Hasher等人（Hasher，Zacks和May，1999）也认为抑制可能存在三种操作方式，包括：（a）通达，阻止已被激活但与目标无关的信息进入工作记忆系统；（b）删除，在工作记忆中删除曾经有关但不再有关的信息。如果"删除"无效，则将导致前摄干扰。（c）限制，阻止那些与目标情境不适合，但有较强优势反应的信息进入（比如那些不适合任务的条件反射）。

（4）工作记忆提取（柯友良，2003）

中央执行系统还有一项较为重要的功能，即工作记忆提取，它是指在工作记忆中的项目提取（而非长时记忆）。

（a）系列加工模型

最早开展记忆提取研究的是Sternberg（1966），在他的实验中，被试会看到一系列记忆数字，随机呈现1到6次，每次呈现一个随机数字，呈现时间为1.2秒。之后呈现一个测试数字，被试需要判断该数字是否在记忆数字中呈现过。研究发现被试的反应时随呈现次数的增多而呈线性增加。因此Sternberg认为短时记忆的信息提取是一个序列系列加工过程，即对短时记忆中的项目进行逐个检测。

（b）平行加工模型

Townsend（1972）提出了平行加工模型，该理论认为加工能量是有限的，测试项目与短时记忆中的全部项目是同时进行比较的，之所以出现反应时随记忆项目增多而呈线性增加，是由于记忆项目的增减而导致每个项目的加工能量减少导致的。

（c）直通模型

系列加工模型与平行加工模型都以比较或搜索为核心（称为搜索模型）。而直通模型则认为，信息不是通过比较来提取的，而是可以直接提取。依照这个模型，短时记忆中的各个项目都有一定的熟悉值或痕迹强度（匹配程度），被试可以据此作出某种判断。每个人都有一个内部判断标准，如果熟悉值高于"高标准"，人们将作出"是"反应；如果低于"低标准"，则作出"否"反应；当熟悉值越是超越这些标准，作出"是"或"否"的反应越快。直通模型得到一些实验的支持，但不能很好地说明反应时为什么会随着记忆项目的增多而呈线性增加。

（d）双重模型

由于搜索模型和直通模型都有其合理的一面，Atkinson和Juola（1973）将搜寻模型和直通模型结合起来，提出了"搜寻-直通"双重模型。该模型认为，被试先依据测试项目在主观上熟悉值的高低作反应。如果对测试项目的熟悉值高于"高标准"或低于"低标准"，被试便可迅速地以直通模型作出肯定或否定反应；如果对测试项目的熟悉值是中间熟悉度，即低于高标准并高于低标准，则要进行系列搜索才能作出反应。熟悉值的反应标准是可变的，如果主试强调速度，那么低标准与高标准之间的距离将减少，即被试更多地依赖熟悉值进行直通反应；反之，如果主试强调的是正确性，那么两个标准间的距离将增大，从而使判断更多地依赖于较慢的搜寻过程。

四.嵌套加工模型与同中心模型

1.嵌套加工模型

Baddeley的工作记忆模型认为，工作记忆是一个独立于长时记忆的系统。而Cowan（1999）的嵌套加工模型则认为，工作记忆是长时记忆中被激活的那部分，而不是一个专门用于暂存信息的系统（哪个位置的长时记忆被激活，哪个位置就是工作记忆）。该模型还认为，工作记忆分为两部分：长时记忆激活部分及注意焦点，前者是指与当前任务无关，但在长时记忆中被激活的信息；后者是指与当前任务相关的被注意的信息。注意焦点是一个容量有限的成分，只能保持少量的项目（1-4个记忆项目）；而长时记忆的激活部分则由当前被激活的所有表征组成，虽然没有容量限制，但会随时间逐渐消退。该理论还认为，除了复述，其他的操作加工也会对工作记忆的保持起重要作用。

2.同中心模型

（1）模型介绍

在嵌套加工模型的基础上，Oberauer提出了同中心模型（Oberauer，2001；2002；2003）。同中心模型分为3个部分：

（a）注意焦点，即当前任务直接指向的对象，处于当前被加工的位置，是注意力焦点的所在。该区只能容纳1个信息项目或组块。该焦点也被称为狭义注意焦点；

（b）直接存取区，即当前加工对象的"后备军"（当前任务的备选集），该区约能保持4个信息项目或组块，对任务而言可直接存取（即很容易被注意力捕获），但这些项目互相影响和干扰。由于直接存取区也分配了一定的注意资源，该部分也被称为广义注意焦点。直接存取区与注意焦点之间既反映存储与加工的关系，又反映注意焦点转换的现象。当注意焦点从原位置转换到直接存储区的其他一个位置时，加工也从当前项目转移到其他项目（（狭义）注意焦点区的转换）。

（c）长时记忆激活区，长时记忆暂时被激活的信息，与当前任务无关，无容量的限制，较长时间后会被遗忘或消退。该区域的信息提取速度快于长时记忆区的，而慢于直接存取区的。

注：嵌入加工模型的注意焦点相当于同中心模型的直接存取区，而非同中心模型的注意焦点。

同中心模型的结构是，注意焦点嵌套在直接存储区中，直接存取区嵌套在长时记忆激活区中，而长时记忆激活区又嵌套在长时记忆中。之所以称为同中心模型，是因为注意焦点是其他几个区域的共同中心，直接存取区是除注意焦点外其他几个区域的共同中心。如图3，节点和连线表示长时记忆网络，其中黑色结点是被激活区（长时记忆激活区），白色节点是未被激活区；较大的椭圆是直接存取区；中间较小的圆是注意焦点。

图3

（2）实验范式

同中心模型采用记忆更新任务实验进行研究。实验过程中会依次呈现一系列网格，在第一个网格内，每个方框都有一个数字，这些数字需要被试记住。在随后呈现的每一个网格中，随机会有一个方框呈现数字（数字可为正，也可为负，如"+3"或"-4"），而其他方框不呈现。被试需要用呈现的数字去更新本方框的数字。如图4，第一个网格第一行第二个方框的数值为5，第二个网格的对应方框呈现数值为-4（网格随机选择，数值也随机），那么该方框的数值更新为-1（5-4）（其他方框不更新）。接着呈现第三个网格...。在实验中，研究者设置了两种实验条件。屏幕上有两行方框，一行跟随着新呈现的数值更新，另外一行不跟随数值更新，这种条件称为"主动---被动"条件（比如规定在上行方框呈现数值时跟更新，下行方框呈现数值时不更新）。相反，当两行方框都随着各自的新呈现的数值更新时，这种实验条件称为"主动-主动"条件。能够被更新的方框称为主动集，不能被更新的方框称为被动集。当所有网格呈现完后，要求被试输入各个方框的最终数值。图中显示的就是"主动---被动"条件，加粗方框表示可被更新的行。

实验结果有两个发现：

（a）在主动集内，对某方框的数值进行更新后，如果下一次继续更新该方框，被试反应时较短；而如果下一次更新主动集内的其他方框，被试反应时较长，这种时间差异被称为焦点转换代价。即当认知加工从一个项目转移到另一个项目时，注意焦点的转换会消耗一定资源。

（b）当更新方框处于主动集时，主动集的数目会影响转换代价，数量越多，转换代价越大；而当更新方框处于被动集时，方框数目不影响转换代价（"主动-被动"条件只有主动集的方框受主动集数量影响，而"主动-主动"的所有方框受所有方框数目影响）。

从结果（a）的转换代价分析可以发现（下一次的更新框是同一方框的情况比起不同方框的情况更快），存在两种注意力的分离，即同一方框和主动集的其他方框分别对应注意焦点和直接存储区；而对结果（b）的分析，可以得到主动集和被动集分别对应直接存储区和长时记忆激活区。

图4

五.基于时间的资源共享模型（Barrouillet，2007）

注意刷新是该模型中的一个重要设定，该模型基于四个主要假设，第一，工作记忆的处理和维持共享有限的注意资源。第二，一旦注意力被转移，记忆痕迹的激活就会随时间衰退。通过注意来进行刷新可以恢复这些衰退的记忆痕迹。第三，任何吸引注意力的处理任务都会通过注意转移来阻止记忆痕迹的刷新，从而干扰记忆的维持。第四，因为注意焦点只允许维持在一个任务上，所以共享的注意资源是基于时间的。基于上述假设，注意焦点限制了认知操作，使其只能一次一个地进行。当注意资源被处理任务所占据时，它不再能维持记忆痕迹。然而，当在处理任务的间隙，注意资源可用时，衰退的记忆痕迹可以通过注意刷新来恢复。不同于短暂的言语记忆可以通过语音环路中的发音复述来增强，视觉记忆的刷新高度依赖于注意的集中。

六.事件工作记忆

存储事件的工作记忆被称为事件工作记忆。在存储容量上，早期研究者通过工作记忆广度测量范式，以真人完成的动作作为记忆材料，向被试展示1至5个无意义的动作，并要求被试尽可能多地复现出记忆的动作，结果发现被试能够记住3到5个动作事件（Smyth，Pearson和Pendleton，1988；Smyth和Pendleton，1990）。Shen等人（Shen，Gao，Ding和Zhou等人，2014）认为在以往的研究中动作事件包含了过多的附属特征（如颜色、衣着、形状等），该研究发现，运动特征作为一种时空信息，工作记忆对其的存储与其他特征的存储彼此独立，如同时存储2个运动信息与2个颜色信息时的运动绩效与颜色绩效，分别与单独存储2个运动或2个颜色时无显著差异。研究者故以光点动作（生物运动，7-10：运动感知）作为更为纯粹的记忆材料，通过变化觉察范式测量了事件工作记忆的容量。结果发现，生物运动事件的工作记忆存储容量保持在3-4个，与记忆简单客体（如颜色、形状等）的工作记忆容量接近。另外，在现实生活中鉴于来自不同人的生物运动常常是处于不同位置以及在同一时间内发生的，而非总是由一个人在同一位置连续做出多个动作，因此研究者还将实验范式换为多个动作同时呈现，实验结果发现事件工作记忆的容量仍为3-4个（Shen，Gao，Ding和Zhou等人，2014）。