什么是Active Inference（主动推理）？ ——学习笔记

推荐一篇知乎文章：https://zhuanlan.zhihu.com/p/697201909、

一个知乎回答：https://www.zhihu.com/question/395687242/answer/3205729491

还有一个小红书上的视频：https://www.xiaohongshu.com/explore/69a9ae6e000000001a024cad(需登录才能看）

Active Inference（主动推断）是当代认知神经科学和人工智能中最具统一性和雄心的理论框架之一，由Karl Friston提出。它基于自由能原理（Free Energy Principle, FEP） ，主张所有自组织系统（尤其是生物系统）通过最小化自由能来维持生存、感知世界、选择行动并学习。这一原理将感知、行动和学习统一在一个数学框架下，超越了传统分离的模型（如强化学习中的奖励最大化）。

一、核心思想

Active Inference的一句话总结：智能体通过最小化（变分）自由能（Free Energy）来同时进行感知、学习和行动，从而最小化对世界的"惊讶"（surprise）。

惊讶定义为观测的负对数概率：其中 o 是观测（sensory outcomes），m 是生成模型。

由于直接最小化惊讶在计算上不可行，系统使用变分自由能作为上界代理目标。

二、关键名词解释

①自由能（Free Energy）

不是热力学自由能，而是信息论中的变分自由能（Variational Free Energy） F ，它为惊讶提供上界：

其中：

q(ψ) 是变分分布（approximate posterior），对隐藏状态 ψ 的信念。
是Kullback-Leibler散度（非负）。
因此（surprise的上界）。

最小化 F 等价于最大化模型证据（model evidence）并最小化复杂性。

另一种常见分解：

复杂性惩罚偏离先验，准确性奖励数据拟合。

②生成模型（Generative Model）

智能体内部的世界模型，用于从隐藏原因 ψ 生成观测 o，并预测未来。典型形式：（似然）、（先验）、动态模型。

③变分推断（Variational Inference）

用简单分布 q 逼近真实后验，通过最小化 F 实现近似贝叶斯推断。

④预测误差（Prediction Error）

或广义形式：。

感知通过梯度下降最小化预测误差来更新信念。

⑤感知（Perception）

最小化 F 关于内部状态（信念参数 μ ）：

这对应梯度流，类似于预测编码（predictive coding）中的误差传播。

⑥行动（Action）

主动改变环境，使观测符合预测：

行动最小化当前自由能，感知最小化信念下的自由能。

⑦期望自由能（Expected Free Energy, EFE）

用于前瞻决策，选择未来策略 π。

常见分解（风险 + 歧义 + 新奇）：

其中风险对应实用价值（pragmatic），歧义和新奇对应认知价值（epistemic，探索）。

策略选择：或softmax形式：，控制探索-利用权衡。

策略（Policy） 行动序列，选择使预期自由能最小的那个。
信念（Belief） 对隐藏状态的概率分布 q(ψ)，不是点估计。
马尔可夫毯（Markov Blanket） 系统与环境的统计边界，使内部状态 μ 与外部状态 ϕ 通过感觉状态 s （sensory）和主动状态 a （active）条件独立：

这定义了"自我"的边界：外部 → s → μ → a → 外部，形成闭环。

三、整体流程

Active Inference的完整循环（感知-行动双路径）：

观测：环境产生 o 。
感知更新：最小化变分自由能 F，更新信念 q(ψ)。
预测：用生成模型预测未来观测。
决策：计算每个策略的期望自由能 G(π) ，选择最优策略。
行动：执行行动 a，改变环境，减少未来惊讶。
循环：新观测到来，重复。

本质：最小化自由能的双路径

改变信念（感知/学习）：最小化 F 关于内部状态。
改变世界（行动）：最小化 F 关于行动，或最小化 G 关于策略。

这一框架统一了被动贝叶斯推断和主动行为选择，已在机器人控制、精神病理学和具身AI中得到广泛应用。它提供了一种无需外部奖励函数、天然包含探索的"生存即最小惊讶"的智能范式。