14-3 开环控制和闭环控制（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

信息处理理论是一种将计算机处理类比为人脑工作模式的认知理论。一些动作科学家喜欢将它作为解释运动控制的模型，将刺激信息作为输入（刺激可以来自于外部环境中的，比如交通信号或比赛中的枪鸣，也可以来自心理刺激，如想起要做什么事或者目的，或身体上的感觉，如身体上的疼痛感）；将人体作为信息处理的"机器"；将动作作为系统的输出。本文以信息处理理论为起点，介绍开环控制系统和闭环控制系统。

一．分层控制理论

人体内处理信息的"机器"采用分层控制的处理原则，不论是开环控制系统还是闭环控制系统。分层控制理论认为，运动系统具有不同的层级。运动控制的神经系统（14-6：运动控制的神经系统）其实也属于这种分层控制。联合皮质处于最高层的水平，它负责产生运动的目标；然后是基底神经节、辅助运动区、运动前区和外侧小脑，它们处于高级水平，负责运动组织和运动策划；初级运动皮质和脊髓小脑处于中间水平，负责肌肉的激活、运动的执行与校正。脑干和脊髓则处于最低层水平，负责一些低水平反射。（Shumway-Cook 和Woollacott （著），刘浩等人（译），2021）

早期的分层控制理论认为，不同层级的区域有着严格的垂直控制关系，只能高层支配相邻的下一层，不能越级也不能自下而上控制。如Magus发现，低级反射会受到高级中枢的抑制，当高级中枢受损时会出现一些由低级神经控制的反射（失去了高层的抑制）（Magus，1925；1926）。在现代，分层控制理论有了一些发展，认为每个层级之间是互相影响的关系，而不是严格支配的关系。低层级的反射感觉信息也会被上传到大脑，从而对运动进行调节。比如，即使是健康成年人，脚踩到钉子后也会迅速地作出收回腿的动作，这是低级反射自下而上控制的一个例子。另外，各个层级之间即存在串联也存在并联。这种控制方式为运动控制的灵活性提供了基础。

二．开环控制系统（张英波和夏忠梁，2019；刘涵慧, 姚梅林）

对于许多动作，尤其是那些在稳定和可预料的环境中执行的短时间的快速动作，如投掷、跳跃、踢球和击球动作等，动作执行者通常需要预先作动作计划，然后激发动作。一旦动作开始，在动作过程中几乎没有修正和调整，也很少有意识参与。这种由中枢神经系统决定的、存在预先计划的、没有调整和反馈的随意运动由开环控制系统发起。

1.整体结构

开环控制系统可以看作一个信息处理系统。其中处理信息的"机器"分为执行器和受动器两部分，前者指的是除脊髓以外的中枢神经系统，负责处理信息，并作出运动决策；后者包括脊髓和肌肉，负责生成运动，如图1。

图1

执行器又可以细分为3个子过程，刺激确认、反应选择和反应程序，这三个过程串行处理。刺激确认是一个感觉输入的过程，部分感知信息将会作为行为的依据，如对手的击球动作和乒乓球的飞行轨迹；反应选择是一个决定过程，即依据刺激作出什么样的反应。比如确定是接球、还是做假动作、还是把球回击到球桌的哪个位置使对手无法接住等等；反应程序将上一阶段的信息转化为更具体的运动信息，包括（a）动作程序，即执行动作前预先组织好的一系列的动作指令，它决定动作的基本细节，能够使人在没有反馈的情况下完成动作，比如中枢模式发生器；（b）同时包括对运动后视觉、平衡觉和躯体感觉的预期，这些预期信息会在闭环控制系统中使用。受动器，首先从执行器的输出中过滤出动作程序，然后动作程序经过脊髓，最后通过肌肉进行动作输出。如图2（Schmidt和Wrisberg，2000）。

图2

2.刺激确认

注意过程可以分为前注意阶段和集中注意阶段，而FINST理论又将前注意阶段分为平行注意阶段和FINST阶段（9-16：视觉特征整合）。平行注意阶段的特点是输入信息量大，且并行处理（9-16：视觉特征整合），FINST阶段会在平行注意阶段中给其中的若干个平行信息打上标签。刺激确认阶段处于FINST阶段中，只有被打上标签的平行信息才会进入下一阶段（反应选择）。要注意的是，被确认的信息数量是可以大于1的，且是平行处理的。

在开环控制系统中，输入的信息需是能引起个体运动的信息，包括场景、事物信息、内部目标等等。比如在棒球比赛的场景中（场景），球迎面飞来（事物信息），击球手为了将防守方投手所投的球击出（内部目标），需要作出挥棒的动作（个体输出的动作）。

在运动控制中，同时确认几个刺激是可能的。例如，足球守门员可以同时确认如观众的喧哗、对比赛情况的看法、来球的位置和速度、对方球员的进攻等刺激信息。在进行反应选择前，这些刺激信息间不会争夺注意资源，互不干扰。

3.反应选择

对于那些被确认的信息，才会进入反应选择阶段。首先被确认的信息，会根据"刺激-动作"联结激起相应的一系列反应，如看到门把手就有伸手抓握的运动倾向。然后，由于可能有多个平行信息被激活，并且一个刺激也可能会激活多个反应（比如，对于一个飞来的球，可选的反应可以是接球、破坏传球路线或什么都不做）。因此该阶段的任务是，在多个反应选项中选择出一个。

（1）知觉识别与动作反应双分离

如果信息确认发生在FINST阶段，那么此时这些确认信息还没被知觉（识别）为客体。从直观上说，运动反应发生在识别之后，即需要先识别出这个是一个门把手，才会引起伸手抓握的运动倾向，很多人工智能系统也是这样设计的（先识别，后产生运动反应）。事实上，在大脑中，识别和运动反应是双分离的，无需先识别，仅通过客体的一些特征，就能产生运动反应的倾向。当然，个体也可以先识别而后再反应，何种情况需要根据任务而定。

神经系统的双分离是指，如果一个脑区仅对功能A负责，另外一个脑区仅对功能B负责，两个脑区互不影响。知觉信息识别和动作实施之间存在双分离的现象。在一项研究中，研究者先给被试呈现一个客体，然后让被试对客体命名并用手指指向它的位置。当该被试是一名颞叶受损的病人时，被试不能命名客体，但是可以用手指指向它；如果被试是一名顶叶受损的病人时，被试可以命名客体，但是不能指向它。

Milner和Goodale（1995）使用双分离的方法研究了一位腹侧通路（动作通路）受损的病人，在该实验中，研究人员给被试一片卡片，实验包括2个实验条件：（a）动作任务，呈现一个凹槽原木，被试需要将卡片插入凹槽；（b）外显匹配任务，呈现一个凹槽原木，被试仅需要调整卡片的方向，使卡片与凹槽对齐（无需插入）。结果发现，虽然病患被试在任务（a）上表现良好，与正常人无异，但竟无法完成任务（b）。这说明，在无需识别或知觉到物体是"什么"的情况下，就能产生与该物体相应的动作。

（2）控制处理和自动处理

控制处理是一种要求注意的、按照顺序进行的（串行）、受意识控制的处理方式，属于系统2或慢系统；自动处理是一种不要求注意、平行处理的、不受意识控制的处理方式，属于系统1或快系统。反应选择即可是控制处理，也可是自动处理。

控制处理可以使运动处于人们的意识之中，比如在识别到门把手后，再进行"伸手抓握门把手"，这时人们清晰的认识到他们在做什么，使运动处于掌控之中。另外，在反应选择阶段，可能会存在多个运动反应争夺注意资源，这时就需要根据当前的任务要求，将运动反应分出主次，抑制无关紧要的活动，集中注意完成目标任务。

自动处理可以使人们反应更加迅速，比如在乒乓球比赛中通常需要运动员在极短的时间内作出反应，这种情况下不可能先识别出运动轨迹再反应。自动处理所占的注意很少，因此可以并行（平行）处理多个动作反应，如图3中的杂技，一边骑独轮车一边抛球。自动处理一般出现于学习动作的后期阶段。例如，在向一些奥运会体操冠军问及比赛中他们的思想过程时，得到的回答往往是，他们主要对系列动作中的第一个动作多加注意，其他后续动作几乎是自动完成。由于后续动作执行中只需要很少的调节，优秀运动员就能够把注意力更多地集中在动作序列中更高层次的要求上，如个人风格和高难动作表现力。

图3

（3）海克定律

动作反应时是从提供一个在时间上不可预知的刺激开始，到人作出反应的时间间隔。而影响动作反应时的重要因素之一就是"刺激-反应"对的数量。在选择反应时实验范式中，实验开始前首先会提供一个警示信号（如蜂鸣声或音乐），接着在一段不可预测的时段后（如2、3或4秒），会出现一个刺激，不同刺激需要被试作出不同的应用（比如出现不同颜色的灯，需要被试按不同的按钮），被试需要做的是根据刺激迅速地作出对应的动作反应。研究发现，当"刺激-反应"对的数量越多时，被试的反应时越慢。如图4，当"刺激-反应"对的数量从1增加到2时，反应时从大约190毫秒增加到300毫秒以上，增幅约58%。随着"刺激-反应"对的数量的增加，反应时继续增加，但增加幅度越来越小。

图4

4.反应程序

反应程序是一个行动过程，在选择出反应选项后反应程序将其转换为更加具体的反应信息，包括（a）动作程序，（b）动作后预期的视觉、平衡觉和躯体感觉等信息，其中预期信息在闭环控制中使用。反应选择的选项信息和反应程序的动作程序都是关于某个动作的信息，但前者关于更为抽象的意图信息，后者关于更具体的更多细节的实际运动信息，如"抢断"VS"伸出左手抢断"。

心理不应期理论指出，当两个刺激在时间上紧密出现时，对第二个刺激的反应会有所延时。双刺激范例实验是关于这类理论的实验设计。在双刺激范例实验的研究中，会给被试呈现两个刺激并需要被试作出相应反应，如呈现刺激1（如声音）时需要被试抬起左手，给被试呈现刺激2（如灯光）时需要被试抬起右手。通过设置两个刺激之间的时间间隔，研究人员观察被试对第二个刺激的动作的反应时间如何变化。研究结果如图5所示，最下面的长横线是该刺激单独呈现时被试对刺激的反应时间，该时间可作为双刺激范例实验的比较。上面的表示双刺激范例实验的第二个刺激的反应时间。实验结果显示，当两个刺激出现的时间间隔约为60毫秒时，第二个刺激的反应时间最长，随着时间间隔的增长，反应时间逐渐缩短。为什么会有这种延时呢？为了解释这种现象，一些研究人员认为，在反应程序阶段存在一个瓶颈，在第一个刺激的反应程序处理过程中，由于瓶颈的存在无法为第二个刺激"让路"。如图，如果刺激1与刺激2相距100毫秒，在刺激确认阶段和反应选择阶段两个刺激可以并行处理（图6（a））；而在反应程序阶段，当刺激1在被处理时刺激2需要等待，必须等到刺激1处理完毕并形成反应1后，才轮到刺激2（图（b））。因此反应1和反应2之间的时间间隔将远远大于100sm（图（c））。心理不应期的解释原理可以用来解释一些运动比赛的假动作现象。以假动作为刺激1，真实动作为刺激2，当两个刺激之间的时间非常短时（但大于60毫秒），由于对手正在处理刺激1而无法对刺激2作出反应，从而轻松获得分数。另外，当两个刺激的时间间隔小于60毫秒时，此时被试产生了不同的动作模式，即被试同时对两个刺激作出反应，或者说把两个刺激当作是一个刺激，而反应的动作也被捆绑起来当成是一个动作，这种现象叫做组合。

图5

图6（a）

图6（b）

图6（c）

5.动作程序

动作程序，即执行动作前预先组织好的一系列的动作指令，它决定动作的基本细节，并能够使人在没有反馈的情况下完成动作，比如在中枢模式发生器中，通过运动指令使个体产生节律运动。这些运动程序存储于长时记忆（中枢神经中，包括脑干、小脑、中脑、脊髓、大脑皮层处）中，当我们要执行某个动作时需要从记忆中提取。

（1）客观存在证据

它的客观证明主要表现在以下几个方面：

（a）随着反应动作复杂性的增加，由于动作程序变复杂，反应时也随之增加（这是因为生成动作程序的耗时也在增加）；

（b）传入神经阻断实验证明，肢体动作在没有感觉信息的情况下仍然能够完成，即在没有反馈的情况下完成。如蝗虫的感觉神经被切断后，仍然能作震动翅膀的动作，另外一个实验是"14-6：运动控制的神经系统"中关于猫的节律运动。这些节律运动被认为产生于脊髓的运动程序；

（c）人能够主动做出没有反馈信息参与的快速动作；

（d）在正常执行的动作中和执行过程时被人为阻断的动作中具有相似的肌电图图谱。

（2）运动指令的内容

运动程序是一套使肌肉运动的指令，而肌肉根据这些信息收缩或者放松，从而产生运动。运动指令的内容包括：

（a）产生动作的各个特定肌肉群；

（b）各肌肉群参与动作的顺序；

（c）各肌肉群参与的力量；

（d）各肌肉群收缩的相对时间和时序；

（e）各肌肉群活动的时间过程。

6.一般动作程序

动作程序理论存在着两个问题，第一个是如果一个动作对应一个动作程序，那么由于外部环境的复杂多变性，每个动作几乎可以产生无穷无尽的变化形式。那么这就需要庞大的记忆容量来存储这些程序；第二个是我们总能作出新颖的动作，而这些动作并不存储于记忆之中（之前并无发生过）。比如，一些顶级世界球星处于比赛绝境时，已经失去了产生正常动作的条件，从而作出极不寻常的动作，达到出奇制胜的效果。这些"绝活"在以往练习中难以丝毫不差的模仿。那么这些不寻常动作的动作程序从何而来呢？根据这些问题，运动科学家们对动作理论作出了修正，提出一般运动程序理论。

一般运动程序并不是针对专门运动的，而是可以产生各种各样动作变化的，以满足不断改变的外界环境要求。动作程序认为每个动作都对应一个动作程序，而一般动作程序则认为动作程序是一个动作模式，能够针对外界变化而调整动作（每个动作模式对应多个动作）。一般程序理论认为，一个动作包含表面特征和不变特征两部分。表面特征是一个动作可以被修改的部分，可以把表面特征作为一个参数，一定程度地修改这些参数不会改变动作的类别；不变特征是动作的核心成分，它是一般动作程序中所谓的动作模式。如果改变不变特征，就会使动作变为另外一类动作。

（1）表面特征

一般运动程序认为表面特征包括力量、运动速度、运动时间、动作幅度和控制肢体等。以"写字"为例子对表面特征作说明。

（a）力量：写字可以用不同的力量写；

（b）运动速度：可以用较快速度写一个字，也可以用较慢速度；

（c）运动时间：同上；

（d）动作幅度：即可在纸上用很小的字签名，也可在黑板上用很大的字签名；

（e）控制肢体：除了右手，我们还能用左手、左脚或者牙齿等不同肢体写字。

即使改变这些参数，仍然可以写出想写的字。根据实际情况修改一般运动程序的表面参数，变可对同一动作进行千变万化的改变。

（2）不变特征：动作相对时间

一个物体之所以能跟其他物体有所区别，是因为它存在着某些固有特征。正如人的形象千千万万，不同身高、不同体形、不同肤色等等。但一个客体能够被称为人，是因为这个客体有人的固有特征，如有四肢、有头脑、直立...。动作也不例外，一个动作之所以能被归类到某一类动作，是因为它包含某些固有特征，即运动的不变特征。不同类型的运动其不变特征不同，同类运动不变特征相同。这些不变特征包括相对时间，它指一个动作中各个子动作的相对时间。相对时间对运动节奏至关重要。在练习钢琴时一开始老师会建议慢练，在熟悉后再把节奏加快。但是无论节奏是快还是慢，每个键的相对时间是固定的。同样的，一个舞蹈可以以快节奏的方式完成，也可以慢节奏，不管这个舞蹈节奏如何，每个动作之间的相对时间是不变的。图7表示了两个投掷动作中三块肌肉的肌电图（当肌电图有反应时表示肌肉在活动），虽然两个动作的总时间不同，但是各块肌肉运动的相对时间是相同的。如果它们的相对时间变了，可能就不属于投掷动作了。许多研究表明，人们在走路、慢跑和快跑过程中采用了完全不同的相对时间结构。这些证据都证明了，相对时间是动作的不变特征。

另外，一般运动程序中相对时间是否绝对不变存在一些争议，但是至少在很短时间内的相对时间是不变的。

图7

（3）小结

动作程序包括不变特征和表面特征。不变特征相当于动作概念的本质属性，存储于长时记忆中。而动作的表面特征则是一种可变特征，它可作为参数对一般动作程序进行调整，产生具体的动作。在不变特征的约束下，组合不同的表面特征，如运动速度、幅度、肢体等参数，使同一动作有了多样性，从而满足多变的客观环境要求。

当棒球运动员准备执行投球动作时，运动员会从长时记忆中提取一般动作程序，最为重要的是，运动员需要根据临场情况来修正这个投球动作的一般动作程序，比如调整最适宜的投球动作（如快慢、远近、高低），以及使用肢体等。例如。如果运动员决定在尽量短的时间内把球投远，运动员就需要选择迅速和大幅度的动作；假如他习惯于用右手投球，他就倾向于选择更有力的右臂和右手执行作。一旦运动员确定了这些参量值，就对执行动作做好了准备。

7.表面特征的学习

一般程序理论认为，大脑存储的是动作的不变特征（动作模式），而表面特征根据不同环境调整。实际上，表面特征也是可以被学习并被存储的。比如，当一个舞蹈或者一首曲子使用节奏A被学习，那么在表演时，相比学习时所用的节奏A，使用节奏B表演需要表演者更多的控制。或者说，用节奏A表演比用节奏B表演更自动化。如果，在运动学习过程中只有不变特征被学习，那么不论是节奏A还是节奏B，在表演时两个动作应该是没有区别；但是，从学习节奏和非学习节奏的差异中可以看出，表面特征在运动学习过程中也被学习了。

三．闭环控制系统（张英波和夏忠梁，2019；Shumway-Cook 和Woollacott （著），刘浩等人（译），2021）

开环控制仅适用于那些处于稳定和可预料环境中的且执行时间很短的动作。这是因为，开环控制没有反馈机制，不能发现错误和纠正。而稳定和可预料的环境对动作的干扰相对较小，且在短时间的情况下累积的干扰也不大。但通常情况下，几乎所有动作都会受动环境的影响，如果在没有反馈调节的情况下，动作很快就会发生偏离。因此，一个正常的运动系统离不开反馈调节，反馈调节由闭环控制系统执行。

1.反射理论

闭环控制理论最早起源于Charles Sherrington（1906）的反射理论。这个理论突出了感觉信号对运动的影响，认为反射是行为的基础，复杂运动则是由多个单一反射运动串联组合而成（Sherrington，1947）。但这个理论局限很多，比如它无法解释缺少感觉输入时的运动，也无法解释随意运动。

2.基本思想

闭环控制系统是指利用反馈，发现和纠正动作错误，并做到维持目标状态的一种运动控制方式，其本质是一个反射系统。该系统同样包括执行器和受动器，执行器是处理信息和保持目标的部分，受动器负责执行并输出动作。该系统还需要一个比较器，负责比较预期信息（由执行器的反应程序阶段产生）和反馈信息，如果察觉到错误就会调整运动使之维持目标运动，如图8（Shcmidt和Wrisberg，2000）。该模型的流程是，感觉信息输入执行器，在执行器处理信息后，一方面执行器会对受动器输入运动信息，受动器接收了运动信息后完成动作；另外一方面执行器也会对比较器输入一个运动副本和运动后对视觉、平衡觉和躯体感觉的预期。受动器在执行动作时会改变自身和环境的状态，而感知器官（视觉、平衡觉和躯体感觉）会对这些状态进行持续监控，同时将当前环境的监控信号作为反馈信息传递到比较器中。比较器的作用是计算预期信息和外部反馈信息之间的误差，并将这种误差输入到执行器中，执行器再根据该误差进行调整以减少动作误差，从而使动作往目标方向进行。

闭环系统的一个例子就是空调。执行器有一个目标温度并控制受动器，受动器负责输出冷/热气，空调的比较器通过比较室内温度和目标温度的差别，将该差值传递给执行器，执行器再根据温度差值控制受动器以达到目标温度。另外一个例子是驾驶，司机会依据车实际所在的位置与期望车所在的位置（如车道中间）的差异调整驾驶，使车始终保持在两车道线之间。

图8

3.模型

闭环控制系统的完整模型如图9，它与开环控制系统结合起来，共享执行器和受动器，只是两个系统负责的动作成分不同，前者负责闭环动作成分，后者负责开环动作成分，形成一个更完善的系统。因此，闭环控制系统的执行器包含刺激确认、反应选择和反应程序，受动器同样包括动作程序、脊髓和肌肉。反应程序阶段产生的副本和预期信息除了会送达比较器，还会被送到下级的各神经中枢，如脊髓，供下级神经中枢的反射所用。

在闭环控制系统中，输入的信息主要用于运动的反馈和纠正，包括视觉、听觉、嗅觉等外源信息，也包括本体感觉、躯体感觉等内源信息。其中，视觉包括中央凹视觉和外周视觉，中央凹视觉负责识别物体，意识的参与程度较高；外周视觉负责对运动物体的时间空间预判、运动速度的判断（自身或环境中的物体）、运动方向判断、通过光流维持身体的稳定等等（14-7：姿势控制：站姿与坐姿），外周视觉的意识参与程度较低。根据意识程度的不同，中央凹视觉和外周视觉参与的反射也不同。

闭环控制系统是一个多级的反射系统，不同的输入信息对应不同层级的反馈信息，不同层级的反射分别是M1反射、M2反射、激发性反射和M3反射（14-6：运动控制的神经系统）。M1反射的反馈信息从肌肉到脊髓，并与脊髓中的副本或预期信息比较，当存在误差时便产生反射。其响应时间为30-50毫秒，无意识并行处理，但是灵活性较差只能处理固定的反射；M2反射的反馈信息是关于多个肌肉的姿势信息，反馈信息从肌肉到动作程序（脑干、小脑、中脑、脊髓、大脑皮层处）并与副本或预期信息比较进而纠正。其响应时间为50-80毫秒，灵活性低但高于M1反射，主要负责姿势控制；外周视觉主要参与激发性反射，反馈信息从环境到动作程序并与副本或预期信息比较进而纠正。其响应时间为80-120毫秒，灵活性中等；中央凹视觉、听觉、平衡觉和躯体感觉等共同参与M3反射，反馈信息从环境或身体到比较器中，并与当中的副本或预期信息比较，产生的误差会作为输入信息输入到执行器。其反射时间约为120-180毫秒，为随意运动，受自主意识控制。

图9

动作时间是指动作从开始到结束之间的时间间隔。反射在动作中所起的作用，取决于动作的动作时间，如拳击的出拳动作约40毫秒、棒球的挥棒击球动作约100毫秒、网球的打球动作约200毫秒、网球的发球动作约300毫秒。目前所知的人体产生最快的动作仅有40毫秒左右，如拳击中的出拳动作。对于这类动作，拳击运动员出拳后M2反应（50~80毫秒的潜伏期）来不及调节动作。即使是M1反应（30~50毫秒的潜伏期），也只能在动作即将结束时发挥一点作用。只有动作时间超过300毫秒（如网球发球）或更长的动作，其他反射才有可能参与修正和调整动作，发挥闭环控制的作用。