18-9 预测心智（AGI基础理论）

《智能的理论》全书转至目录****

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一.主动推理（Hohwy（著），王静和万舒婵（译），2022；Parr，Pezzulo和Friston（著），刘林澍（译），2024；Smith，Friston和Whyte，2022）

主动推理是一种理解感知行为的方法。该理论认为，生命有机体认知与行为的方方面面都要遵循一个原则------令主体当前的感知观察与其偏好的感知观察间的差异最小化，而为主体所偏好的感知观察通常关乎身体的完整与生命的维系（比如鱼偏好的感知观察必然是在水中的）。重要的是，单凭被动地观察环境无助于实现这种差异的最小化，主体必须对其行动-知觉环路施以适应性的控制，由此获得偏好的感知观察。主动推理架构之"主动"就体现于此。

生物与环境（环境可以是物理环境、社会环境、家庭环境等等）之间的关系可以简化如图1，一个知觉-行动环路。感知信息可能对应有机体所偏好的结果和目标（如食物和庇护所有关）、可能用于避免伤害（躲避天敌），或者有助于它们理解世界和揭示周围环境状态（如道路前方有障碍物），这些信息可以指导行动（如趋向目标、逃避伤害，或者绕开前面的障碍物），后续的行动又产生后续的观察，如此循环往复。

图1

上图是生物与环境的简化图，对于世界的状态，人们是无法直接感知的，而只能通过感觉器官间接获取。比如说，一个苹果是一个在那里，这是世界的真实状态。而我们有眼睛、耳朵和皮肤等，可以通过眼睛获取苹果这个视觉影像，通过鼻子获取苹果的气味或者通过皮肤获取苹果的形状和硬度等。我们正是通过这些感觉器官，间接获取苹果这个状态。其中，状态也被称为原因，观察称为结果（只有存在状态才有可被观察的东西）。在主动推理理论中，这个过程也可以表述为"通过观察推理出状态"。使观察表示为y，状态表示为x，根据它们之间的因果关系或推理关系可表示为：y->x。把上述的识别过程看作是一种推理好像有点反直觉，因为在这类例子中（识别香蕉、识别一只小狗）我们察觉不出其中的推理。事实上，这里所说的推理，与我们常用的日常概念"推理"是不同的（比如数学证明题的推理），后者是有意识的，而前者则是将我们觉得理所当然的直接识别过程还原为"观察到原因（y->x）"的一种无意识的推理过程。

哲学上有一种说法叫知觉难题，即我们的观察与环境中的原因并不存在一一对应的关系，即相同的观察可以由不同原因引起，而相同的原因可以引起不同的观察，即便是最简单的观察也如是。一辆直行车影像，它即可以由一个真实的自行车产生的，也可以是由于一个裸眼3D的投影屏幕产生，更离谱的是可能由一群蜜蜂在异常出色的协作下使人造成了一个自行车的感觉印象（同一观察，不同原因）。解决这个问题的方法可以是，通过观察周围的环境（如没有放置投影屏幕的环境），推理出该视觉影像不是由3D投影产生的；还有"蜜蜂不可能有这种协作能力或必要"这个先验知识，因此排除"蜜蜂"的选项。另一个例子是，当你看到有人挥手，可能是因为他们想和你打招呼，或者是因为他们想叫出租车等等（同一观察，不同原因）。他们也可以用很多不同的方式和你打招呼比如点点头，扬起眉毛，挥挥手等（同一原因，不同观察）。要得到从观察到状态的对应关系，就需要我们推理。

现在可以得到关于图1更加完整的图示，如图2。图中，x*是真实环境的状态，x是我们大脑中对可能环境状态的一个表征，它可能与真实环境的状态相符（x=x*），即推理正确；也可能与真实环境的不符（x≠x*），即推理错误（比如幻觉，将一辆自行车错误的认为是蜜蜂协作排列而成）。u表示行动，它可以对真实世界造成影响从而改变真实环境的状态。很多情况下，在给出一个观察时，大脑并不会只给出一个可能原因，根据知觉难题，一个观察可以对应多个原因，这些候选原因也称为假设。比如观察到一个自行车的影像既可能是由于一个真实自行车、也可能是蜜蜂...。在得到一个观察时，我们想要知道的是其背后的原因，既从"从观察到原因"（y->x），但在我们的大脑中，原因与观察之间的方向是"从原因到观察"（x->y），因为与前者相比，后者更符合世界的因果结构。而我们需要做的是，通过大脑中的这些知识（x->y），从观察"y"中得到原因"x"（y->x）。

图2

贝叶斯推理理论是目前较为主流的一种知觉推理方式。它以一种概率的形式去表示生物体对世界的知觉过程：P(x|y)=P(y|x)*P(x)/P(y)。"从观察到原因"（y->x）的可能性大小称为后验概率：P(x|y)，它表示已知观察y的前提下，原因或环境状态为x的可能性大小；"从原因到观察"（x->y）的可能性大小被称为似然概率：P(y|x)，它表示原因或环境状态x的前提下符合这个观察y的可能性大小。根据概率论，P(y|x)=P(y，x)/P(x)，P(y，x)表示联合概率，既观察到y同时环境状态又是x的概率；P(x)为先验概率，即状态x在环境中出现的可能性的大小；P(y)表示观察y被观察到的概率。对于不同的候选假设xi（i=1，2，...，n，n为候选假设的总数），推理要做的事就是选择后验概率最高的候选假设作为观察的原因，xi=argmax（P(xi|y)）。

一般来说，在推理的过程中，P(y)可以被忽略，即P(x|y)∝P(y|x)*P(x)（∝表示正比于）。原因在于，该项对于所有的候选假设来说都是相同的。假设n=3，那么：

P(x1|y)=P(y|x1)*P(x1)/P(y)

P(x2|y)=P(y|x2)*P(x2)/P(y)

P(x3|y)=P(y|x3)*P(x3)/P(y)

在上述3项中选最大，相当于在P(y|x1)*P(x1)、P(y|x2)*P(x2)、P(y|x3)*P(x3)这3项中选最大，因此，P(y)与知觉推理的过程无关。决定知觉推理最终结果的只有似然概率和先验概率两项。

在"自行车知觉"这个例子中，观察到"自行车影像"（y）时，需要推理出观察背后真正的原因："真实自行车"（x1）、"3D投影"（x2）和"蜂群协作"（x3）。首先，对于x2，由于技术等原因目前的3D技术无法给我们百分百真实的感觉，因此由3D投影产生真实自行车视觉影像从似然概率（P(y|x2)）上看是不高的；对于x3，如果仔细观察，那当然能见到蜜蜂，或者见到蜜蜂飞行时身体或者翅膀的一些扰动，因此该似然概率也不高（P(y|x3)）。其次，能从生活中观察到的裸眼3D的自行车概率不高，而由蜜蜂协作形成自行车形状的可能性就更低了，因此x2和x3的先验概率（P(x2)和P(x3)）不高。相比之下，自行车造成自行车视觉影像的可能性（似然概率，（P(y|x1)）），以及日常生活在出现自行车的可能性（先验概率，P(x1)）都比较高。综合似然概率和先验概率两方面，可得推理的结果为x1。有时候，在候选结果中似然概率相似时，可以利用先验概率判断；先验概率相似时，也可利用似然概率判断。比如观察到咳嗽这种现象，那么对于它的两个结果"感冒"和"肺病"的似然概率是相似的，但是，由于在生活中感冒比肺病常见得多，即感冒的先验概率比肺病的高得多，因此很容易推理到原因是感冒。

在上述推理过程中，实际上已经预设了大脑存在存在一些知识，包括各种假设"s"，这些假设就是个体关于世界的知识所构成的集合，如" $人脸是凸的，阳光从上方来，明天会下雨，我的朋友是一个好人...$ "；这些假设具有其可能性P(s)，即先验概率，如人脸是凸的概率为100%，明天会下雨的概率为50%；以及指定状态如何生成观察的似然性P（y|x），比如出现的是一张人脸（凸面体），那么"向阳的那一面是亮的，而被阳的那一面是暗的"的概率为100%。这些预设知识和贝叶斯推理，组成了大脑中的生成模型，并对产生观察的真实原因进行推理。相对的，真实世界中，从原因得到观察称之为生成过程。"生成模型"与"生成过程"描绘的都是从状态"x"到观察"y"的生成。区别是"生成过程"是基于观察"y"的真实的生成因果结构，而"生成模型"则是基于大脑对观察"y"的一种构建，使用预设知识就观察的诱因进行推理。

行为与知觉过程类似，但在原知觉推理的基础上增加一个行动策略"π"作为前提。具体来说，经过推理确定要选择的行为策略的结果表现为我们预测的感知输入。比如说，如果一个策略包括"屈肘"这个动作，若选择该策略，我们必然会预测来自二头肌和三头肌的本体觉输入。这样就在计划和行动之间建立了关联，因为与一个计划有关的预测可以被"转译"为行动，行动能消除该预测与实际接收的本体觉输人间的差异。我们通常没法立刻了解到选择某个行动策略的结果（除非待到真正实施该行动序列后）。但行动策略的结果是可以预测的，这需要我们将生成模型的两大成分串联起来，模型的第一个成分是我们关于隐藏状态（作为行动策略的函数）将如何改变的信念。现在，我们x以代表隐藏状态依时而变的序列或轨迹，以有机体的各种行动策略（π）作为隐藏状态各种变化序列的条件，这样就能写出模型的动态成分：P(x|π)。如决定走向观察"单车"，使观察距离变近。模型的第二个成分就是似然分布，也就是在每种可能状态下期望的观察（比如蜂群生成单车影像或真实单车生成单车影像的概率）。将这两个成分结合起来，有机体就能使用生成模型对其可能的行动或行动策略的结果进行模拟了------比如"我走进这个"观察"会看到什么？"。因此，由行动策略和观察到原因的推理可以表示为：P(x|y，π)=P(y|x，π)*P(x|π)/P(y|π)。P(x|y，π)表示，作出行为"π"并得到观察y时，环境的状态是x的可能性大小，比如，走近之后（π）可以观察到自行车影像（y），实际状态是蜜蜂协作排列而成（x）的可能性。另外一个要讨论的就是P(y|π)，即作出行为π后得到观察y的可能性大小。由于它（P(y|π)）对于所有的候选结果都是相同的，因此它并不影响最后的结果，因此影响行为后的知觉判断的，只有似然概率"P(y|x，π)"（行为"π"以及得到结果x后，得到观察y的概率）和先验概率"P(x|π)"（行为"π"后得到结果x的概率）。要注意的是，"π"只是一个规划，并不表示生物体的真实行动。它用于生物体预期在行为"π"下的前瞻性结果。

二.预测编码模型（Hohwy（著），王静和万舒婵（译），2022）

1.生成模型的知识由来

关于大脑的生成模型中预设了大量的知识，一个问题是这些知识从何而来，或者说模型是如何被塑造和改变的。显然，这些知识不是先天就有的，一些显性知识（比如线性代数、或者认知心理学等）可以从文字、多媒体（视频）、他人教导中获取。对于知觉，一些内隐性的知觉知识无法通过上述任何显性渠道获取，比如我们从来没有任何渠道可以获取从自行车影像是由蜜蜂协调排列的似然概率，但是我们仍然知道它们的概率几乎为0。还如直觉物理知识，即便是动物也知道遇到障碍物需要绕行（固体无法穿过固体）。

预测编码模型认为，这些模型知识（内隐的知觉信息或直觉物理知识）来源于世界的监督。具体的说，生成模型会先自上而下地使用模型知识生成对感官输入（观察）的预测，提供知觉的内容（预设了生物体在出生之初就先天的自带一个生成模型）。当预测与观察之间有不一致时，它们之间的预测误差会自下而上地修正模型知识，即环境观察将预测中错误的部分（即预测误差）反馈给生成模型，引导生成模型的修正；而当预测和观察一致时，预测误差较小，并且预测会对输入进行一定程度的抑制（因此已经成功预测了，没必要再处理它了（通过抑制减低激活强度））。生物体在与环境的交互过程中，这个"预测-修正"过程会不断循环往复，使生物体对环境观察的预测误差逐步最小化，从而形成一个相对稳定的生成模型。

2.自上而下预测和自下而上监督

预测编码模型包含两个要点，第一点是生成模型形成对观察的预测，这个预测就是我们的知觉内容。这一点与大脑信号处理的传统观点相反，认为知觉信号是自下而上传递的。关于知觉是由预测提供的得到很多证据的支持，比如将一杯白色葡萄酒染成红色，当人们品尝它时有可能会喝出红葡萄酒的风味（而不是它原本的风味），这是因为在喝的时候大脑已经预测（知觉）了它的味道。假设当你醒来的时候发现枕边是一个陌生人而非自己的对象（如一些电影中的片段），你会觉得非常惊讶，这是因为你大脑中有一个预期（你醒来的时候见到的是你的对象），而你所见的与预期相差巨大；相反当知觉符合预期时你通常会忽略这些知觉信息，这是因为已经成功预测的信息没必要再处理了。比如，非动作预测线索下的感觉衰减现象（14-2：个体、任务与环境），这个现象说明，当感知觉是可预测并且成功预测时，被试的知觉和相应的皮质反应会减弱，从而说明预测在知觉中的作用。

第二点是自下而上通路上传的是预测误差，当预测符合观察时，下层网络会收到自上而下通路一定程度的抑制，且两者越符合时抑制强度越高，上传的预测误差就越少。这种做法的好处是大大减少了感官数据的冗余，提高了大脑的信息处理效率，这个思想类似于信息学中的压缩编码技术。预测误差的观点得到研究的支持，在一项实验中，研究者对被试呈现一些运动的点刺激。根据点的运动形式，实验包括可预测条件（所有点刺激的运动方向一致）和不可预测条件（点刺激的运动方向随机）。这些点之间是稀疏的，保证刺激与刺激之间超出了V1区神经元感受野和横向连接的范围之外，即一个V1区神经元最多只会接受一个运动点刺激。根据解剖学研究，V1区神经元的感受野为1度，同时由于水平连接（如侧抑制，9-7：轮廓），每个V1区神经元会受2度范围的刺激的影响。因此，刺激之间的距离需要大于2度。另一方面，运动刺激之间的距离也不能太大，需要在上层区神经元感受野范围内容纳多个运动刺激，以观察上层神经元的预测对下层神经元的作用（根据周围的点（V2感受野范围）预测某个V1神经元的刺激的运动方向）。V2神经元的感受野范围约为5度，因此实验中运动刺激之间的间隔采用3度的距离。如图3。实验结果发现，当刺激点的运动方向是可预测时，相比不可预测条件，V1区神经元的反应更小，这是因为由于V1区神经元可预测，预测误差较小，所有V1区神经元受到上层神经元的抑制。而V2区的反应较大，这是因为V2区可以对区域内的刺激运动方向进行了编码。（Friston，Kilner和Harrison，2006）

图3

行为中同样发现这种预测机制。如图4，一个触觉刺激置于被试的右手上，并与联动杆相连。联动杠的另外一侧有一个控制装置，被被试的左手控制。被试可以通过左手控制该装置，使触觉刺激在手上作出运动。根据感受衰减理论（14-2：个体、任务与环境），当自身运动是可预测时，自身运动所造成的触觉感受会减弱。因此在实验中研究者设置了一些不可预测因素，比如延时（左手操作后触觉刺激延时运动），或者触觉刺激的随机运动。结果发现，当知觉越不可预测时，被试的触觉感受越强。（Blakemore，Frith和Wolpert，1989）

图4

3.层级性（Rao和Ballard，1998）

大脑的知觉皮层（如视觉和触觉）是一个分层结构，比如，初级皮层处理的知觉特征较为简单（如线条）；层级越高，知觉特征越为复杂（如形状、人脸）。因此，预测编码模型需要支持这种层级性。在该模型中，每个层级向下传输知觉预测，同时也向上传输预测误差。

图5显示了预测编码的分层网络。图（a）显示该网络的一般架构，在每个分层中，反馈通路（自上而下）携带对下一层级的神经活动的预测，而前馈通路（自下而上）携带预测误差。这些预测误差被用于校正上一层级的预测估计器（生成模型）。由于下层神经元的感受相较于上层神经元感受野的更小，因此通常一个上层神经元会同时对数个下层神经元作出预测，并接受它们的预测误差。图（b）显示了一个由两层网络组成的视觉预测编码网络。在该网络中，输入图像由三个下层神经元（level 1）分析，每个神经元负责其自身的局部图像块。然后，三个下层神经元的预测误差均输入到的上层神经元上（level 2）。随着层级的上升，神经元的感受野会越来越大，在最高层级，感受野会覆盖整个输入图像。

图5（a）

图5（b）

一般来说，越是低层的网络，在空间尺度上对应的感受野越小（如V1区神经元的感受野范围约为1-2度），同时在时间尺度上具有知觉易变性（比如视觉感知随身体移动而变化），有利于捕获事物的（动态或静态）细节；相反，越是高层的网络，对应的感受野越大（如颞中区感受野范围为20-30度），同时具有知觉恒定性（比如一个人的脸部如何变化，我们仍然能感知他是同一个人、眼睛在鼻子上面或者光线通常来自上方等），有利于掌握事物的普遍性和抽象性。

层级之间具有因果规律，通过对下层信息的观察可以推理上层信息的原因，例如一只鸟听到另外一只鸟的清晰叫声时（下层），可以推理出这只鸟更强壮（强壮）；而上层信息可以预测其底层信息，例如如果这只鸟更强壮，那么它的叫声更清晰。

4.精度

生成模型受世界监督，并通过预测误差（预测与观察之差）修正。然而，我们的感官输入是充满噪声和不确定性的，比如在嘈杂环境中的交谈或者摸棱两可的图片。当一个输入的观察是错误的时候，如果不对预测误差作出限制，生成模型将会往变差的方向发展。

观察或预测误差的不确定性被称为精度。对观察的精度可以使用概率分布的均值和方差理解。例如用眼睛观察一个物体的长度大概为1米，那么事实上这个观察是一个分布（假设是高斯分布），其均值为1米。而当方差越大时，对这个1米的观察就越不准确，精度越低；反之，当方差越小时，观察越准确，精度越高。

对于精度低的预测误差，这种信号应该被视作质量差的，应该被抑制。所以此时预测误差对生成模型的影响应该比较小。同时，由于观察不可信，因此预测（自上而下）在知觉的作用应该更大，比如我不相信我眼前所见的，所以我会更应该相信自己的预测；相比之下，如果是高精度的预测误差，将会引发更多自下而上的活动，允许预测误差对生成模型进行修改。在预测编码模型中，精度可以以一种权重的方式影响预测误差，如果精度较高，那么赋予预测误差一个较高的权重，反之则赋予较小的权重。

精度受很多因素影响，包括从观察到原因的复杂性，比如说判断是否一辆单车就属于很简单的任务，因此该观察就很可靠，精度通常非常高，以至于我们直接接受它（无需怀疑）。而全球金融危机对于应对气候变化工作的影响就属于很复杂的因果关系，因此精度较低；另外还包括环境造成的不确定性和噪声，例如，清晰图像比模糊图像更可靠（对比图6），相对于安静的月光之夜的交流，鸡尾酒会上的低声耳语更不可靠。

图6

影响精度还有一个很重要的因素，注意。主动推理理论认为，注意只不过是层级化预测编码中精度预期的优化。在特征整合理论（9-16：视觉特征整合）中，注意在知觉中的作用在于对特征的捆绑。比如一个红色小球将红色特征和圆形特征捆绑。而预测编码模型认为，红色特征和圆形特征分别为被试的观察，它们可能属于同一个原因，即它们被知觉为同一个物体（如一个红色小球），称为捆绑假设；它们也可能属于不同原因（一个红色的物体和另外一个圆形物体），称为独立假设。而知觉推理的任务在于判断这个观察是捆绑假设还是独立假设。由于相近时间和相近地点的两个知觉更可能被知觉为同一个原因（18-4：多感觉处理），因此一个红色小球被判断为捆绑假设的概率比独立假设的概率要大得多，被试得到捆绑假设的结论。

如果使观察的精度降低，那么后验概率也会随之而改变。在橡胶手错觉中，自己的一只手被挡板隔离在视线之外，并在挡板上以相似的姿势放置一只假手。当用触觉刺激同时触碰橡胶手套和自己的手。被试经常报告触觉刺激来自橡胶手的位置，他们甚至感觉橡胶手就像自己的手一样。根据预期编码的注意理论，该实验的独立性假设是，触觉来自于被试自身的手的位置，此时橡胶手的视觉刺激与被试的触觉刺激分离；而捆绑假设则认为，被试感觉到在橡胶手的位置被触摸，此时橡胶手的视觉刺激与被试的触觉刺激被整合，由于视觉比触觉有更强的整合权重，因此产生了橡胶手错觉。又由于捆绑假设比独立假设有更高的概率，因此捆绑假设获胜。如果这时调整观察的精度，（a）可以从时间的角度调整，比如使视觉与触觉不同步（不同步敲击），由于视觉和触觉的整合变得不可靠，视觉输入的观察精度降低，这时独立假说比捆绑假说更好；（b）也可以从空间的角度调整，如调整假手和真手的距离，这种调整同样可以使独立假说比捆绑假说更好。在产生橡胶手错觉的实验条件中，橡胶手和真实手之间的距离通常为10-20厘米，但随着距离的增加，这时手臂位置的精度逐步减低，视触捆绑会减少甚至消失，取而代之的是独立假设。

三.自由能（Parr，Pezzulo和Friston（著），刘林澍（译），2024）

生命有机体认知与行为的方方面面都要遵循一个原则------令其感知观察的惊异最小化。"惊异"衡量的其实是主体对当前的观察有多令人意外的指标。对于不可能的结果，该值应当很高，对于非常可能的结果该值应当较低。因此惊异值是一个概率递减函数：随着概率向0趋近，惊异值逐渐升高；随着概率向1趋近，惊异值逐渐降低。在数学上，惊异可以表示为-ln(P(y))，即观察的概率的对数值（P(y)称为证据）。同理，对行为策略状态做边缘化操作后我们就得到了一个策略的边缘似然或曰"证据"P(y|π)，其自由能为-ln(P(y|π))。因此，在主动推理的框架中，我们可以采取两种方法来最小化模型与世界的差异，（a）改变自己关于"将会看见什么"的信念（比如说，从"3D投影的单车"变成"真实的单车"），使模型拟合于世界，以此消除差异。这对应于知觉。（b）通过运动改变环境输入，如他走近去看，看到真的是一辆自行车。这也能消除差异，它涉及改变世界（包括改变注视的方向），由此改变世界生成的感知（观察）。因此当事人无需改变自己的信念就能使其与世界拟合。

在主动推理架构中，边缘概率或"惊异"水平不仅有它在标准贝叶斯推理中的那层意思，还与主体稳态稳态应变的设定值有关。确切地说，主动推理的主体拥有的模型会为它们偏好的状态或观察分配较高的边缘概率，比如对一条鱼来说"在水中"的边缘似然会非常之高。这意味着有机体内隐地期望自身的观察位于"舒适区"（生理界限）以内。另一种情况是，某人预期自己的体温在个小范围内波动，但借助内置"热侦测仪"，他感受到了过度的高温。这种异乎寻常的状况意味着某种巨大的差异有待消除。我们已经知道当事人可以用两种方式来消除差异，分别是知觉（改变信念）和行动（改变世界）。在当前情况下仅仅改变信念就不够了，真正需要的是采取适应性的行动实现降温（比如打开空调）。

然而，这个值的最小化在技术上很难实现，因为要求取这个值，就要计算所有可能观察的次数和所有可能中y出现次数的比值，而所有可能观察的次数可能有无穷次，因此这是无解的。这好比，问你在随机一次观察中观察到青菜的可能性多大，你基本回答不出来。惊异在技术上很难实现，但是可以通过一些技术手段找到它的一个近似值，这个近似值就是自由能。根据图2，最小化自由能（惊异）有两个互补手段，一个是通过观察改变生成模型，使信念或观念与世界更加接近。这种自由能称为变分自由能；二是通过行动，通过采取实际行动改变世界以改变感知输人的实际生成，相当于选择（相对于当前模型而言）惊异水平最低的刺激，也有助于生成模型与生成过程的拟合。这种自由能称为预期自由能。

下面仅以变分自由能作为说明，其知觉推理在贝叶斯的框架下进行：

由于模型证据P(y)是无法计算的，所以P(x|y)无法计算。一个解决方案是构造一个分布Q(x)，使这个q(x)尽可能接近P(x|y)，即把Q(x)作为P(x|y)的近似。从而使Q(x)代替P(x|y)。KL散度是一种统计学度量，用于度量两个概率分布之间的差异程度，因此最优的Q(x)为：

（由于E $ln(P(y))$ 是关于Q(x)分布的均值，与ln(P(y)无关，因此E $ln(P(y))$ =ln(P(y))）

其中，F(Q，y)就是自由能，而-ln(P(y))就是惊异。但自由能减少时，-ln(P(y))就减少了。由式中可以看出，自由能=惊异+知觉散度。

在自由能理论中，观察和行动都是为了最小化自由能，因此通过自由能强调了观察和行动的的统一，与那些将行动与知觉区分开来的观点划清了界限。