目录与链接

4.具有未知因果信息的CRL

在本小节中，我们对因果强化学习 (CRL) 方法进行回顾，其中因果信息是未知的，需要事先学习。与第一类别相比，这更具挑战性。通常这些方法包含两个阶段 : 因果信息学习和策略学习，可以迭代进行或轮流进行。在具有因果关系的策略学习阶段，范式与第一类别相一致。在因果信息学习方面，通常涉及因果结构学习 (可能包括潜在的混杂因素或动作或奖励的原因) 或因果表示/特征/抽象学习。这些 CRL 方法中的大多数采用因果发现技术 (包括 PC 的变体，CD-NOD，Granger 等)、干预、深度神经网络 (包括变分自动编码器等) 来进行因果信息学习。

我们根据不同的模型设置，即 MDP、POMDP、老虎机和模仿学习，对这些方法进行总结。

Models	Algorithms
MDP	ICIN, FOCUS, causal InfoGAN, NIE, DBC, IBIT, CoDA, CAI, FANS-RL, CDHRL, CDL, etc.
POMDP	causal curiosity, Deconfounded AC, RL with ASR, AdaRL, causal states, IPO, etc.
Bandits	CN-UCB, Multi-environment Contextual Bandits, Linear Contextual Bandits, etc.
IL	CIM, CPGs, causal misidentification, CIRL, CILRS, ICIL, cause-effect IL, copycat, etc.

表 2. 具有未知因果信息的 CRL 算法的部分内容

4.1 Markov Decision Process, MDP

为了证明因果世界模型在离线强化学习中在理论和实践上都能超越简单的世界模型，Zhu 等人首先证明了具有因果和简单世界模型的模型预测和策略评估的泛化误差界限，并提出了一种基于 MDP 的离线算法称为 FOCUS。FOCUS 旨在通过扩展的 PC 因果发现方法从数据中学习因果结构，并利用这种学习到的结构通过离线 MBRL 算法 MOPO 来优化策略。

Mendez-Molina在他的研究提案中指出，在机器人领域存在一些特征，可以通过干预加速因果发现。因此，他的目标是提供一个智能主体，能够同时识别因果关系并学习策略。基于 MDP，他借鉴了 Dyna-Q 算法的思想，在发现潜在的因果结构作为模型后，使用无模型方法学习给定任务的策略。为了在强化学习环境中捕捉因果知识，Herlau 等人在 DOORKEY 环境中引入了一个因果变量，作为可操纵的中介变量来预测策略选择的奖励。这种因果变量是二进制的，并通过最大化中介分析中的自然间接效应 (NIE) 来确定。然后，他们在这个因果变量、策略选择和回报之间建立了一个小型因果图，以帮助优化策略。为了使主体能够具有因果推理能力完成目标导向的任务，Nair 等人提出了一个基于两阶段元学习的算法。在第一阶段，他们通过主体的干预训练了从视觉观测中归纳出因果结构的因果归纳模型；在第二阶段，他们利用归纳出的因果结构进行基于目标的策略学习，并使用基于注意力的图编码。他们的方法改善了对未见因果关系以及新环境中的新任务的泛化能力。针对目标导向的视觉规划，Kurutach 等人将动力学模型的深度学习的泛化优势与经典规划器的有效表示推理相结合，并开发了一个因果 InfoGAN 框架，用于学习高维时序观测的生成模型。通过这样的框架，他们获得了代表数据因果性质的低维表示。利用这种结构化表示，他们使用规划算法生成目标导向的轨迹，然后将其转化为一系列可行的观测。Ding 等人通过增加因果图 (CG) 来增强了目标导向的强化学习。因果图描述了对象和事件之间的因果关系。他们首先使用干预数据估计CG的后验概率，然后利用CG来学习可泛化的模型和可解释的策略。

针对奖励稀疏和状态空间较大的复杂任务，由于探索效率较低，分层强化学习 (HRL) 难以发现高层次的分层结构以指导策略学习。为了充分利用因果性的优势，Peng 等人提出了一种基于因果性驱动的分层强化学习 (CDHRL) 框架，以实现有效的子目标层次结构学习。CDHRL 包含两个过程 : 因果发现和层次结构学习，它们相互增强。在基于子目标的 MDP 模型中，预先构建离散环境变量，采用迭代方式逐步发现这些环境变量之间的因果结构，并构建可达子目标的层次结构，其中可达的子目标是从发现的因果性中可控制的环境变量。他们评估了框架在复杂任务 (即 2D-Minecraft 和简化的沙盒生存游戏 Eden) 中因果发现和层次构建方面的效率。

图 13 . MDP因果图形说明的示例，当忽略时间步长时，状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s = { x 1 ， x 2 } s=\{x^1，x^2\} </math>s={x1，x2}。注意， <math xmlns="http://www.w3.org/1998/Math/MathML"> x 2 x^2 </math>x2 是奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r r </math>r 的唯一父项。

对于许多环境来说，传统方法很难学习到最小的因果模型。此外，大多数环境中的因果关系可能在每个时间步骤都会变化，称为时间变异问题。为了解决这个问题，Luczkow 引入了一个在 MDP 中满足的局部表示 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( f , g ) (f,g) </math>(f,g)。
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> s t + 1 = f ( s t , a t , g ( s t , a t ) ) \begin{align} s_{t+1}=f\left(s_t, a_t, g\left(s_t, a_t\right)\right) \end{align} </math>st+1=f(st,at,g(st,at))

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> f f </math>f 是表示因果机制从原因到下一个状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 的函数， <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 是时间 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 时采取的动作， <math xmlns="http://www.w3.org/1998/Math/MathML"> g ( ⋅ ) g(\cdot) </math>g(⋅) 是一个函数，用于预测每个时间步骤中状态之间的因果结构。在这个模型的形式化之后，他们成功地学习了时间步骤的因果模型和转移函数，这可以用于规划算法并生成策略。为了将现有的静态框架扩展到非静态设置，其中转换和奖励可以在一个回合内或跨回合在环境中变化，Feng 等人提出了一种基于分解非静态 MDP 模型的非静态强化学习的分解自适应算法 (FANS-RL)。FANS-RL 旨在学习一种分解表示，编码了动态和奖励的时间变化，包括连续和离散的变化。然后，学习到的表示可以与 SAC 结合使用，以确定最优策略。

为了提高强化学习算法在不同环境中的泛化能力，Zhang 等人专注于从不断变化的观测中学习状态的抽象或表示。基于图 13 中显示的块 MDP，其中一组具有共享潜在状态空间和动态结构的环境集合，他们提出了一种使用不变因果预测的方法来学习模型无关的状态抽象，从而可以在具有共享因果结构的环境中进行泛化。图 13 中的模型无关状态抽象必须包括变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> x 1 x_1 </math>x1 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> x 2 x_2 </math>x2。基于动态的稀疏性属性，即每个下一个状态变量仅依赖于当前状态和动作变量的一个小子集，Tomar 等人提出了一种模型不变状态抽象学习方法。在 MBRL 设置下，他们的方法允许对未见状态进行泛化。为了进一步学习用于有效下游控制的不变表示，Zhang 等人提出了一种称为 Deep Bisimulation for Control (DBC) 的方法，以学习编码任务相关信息的稳健潜在表示，使用了无需重构的双模拟度量。直观地说，他们关注的是状态空间中对当前和未来奖励产生因果影响的组件。他们还证明了真实 MDP 的最优值函数与使用学习表示构建的 MDP 的最优值函数之间的价值界限。尽管 Zhang 等人学习了编码任务相关信息的潜在表示，但他们可能忽略了与当前任务无关但与另一个任务相关的信息，并且假设状态抽象之间的动态模型是密集的。为了处理这些问题，Wang 等人提出了一种学习任务无关状态抽象的因果动态学习方法。具体而言，他们首先将状态变量分解为可控变量、与动作相关的变量和与动作无关的变量三种类型。然后，他们基于条件互信息进行条件独立性测试，以确定变量之间的因果关系。通过消除那些不必要的依赖关系，他们学习到了在未见状态上具有良好泛化性能的动态模型，并最终得到了状态抽象。为了使强化学习主体能够在在线强化学习环境中区分因果关系和虚假相关性，Lyle 等人提出了一种强大的目标-执行探索算法，用于识别 MDP 模型中的因果结构，并具有关于任何状态-动作对值的无偏估计的理论动机。

在元学习的思想下，Dasgupta 等人利用无模型强化学习算法 (A3C) 提出了一种能够进行因果推理的方法。他们训练代理在观察、干预和对事实进行推理的三种情境下实现因果推理，并获得奖励。这是首个将因果推理与元模型无模型强化学习相结合的算法。

图 14 . MDP 的因果图形说明示例，其中这些状态和动作空间被分解为两个局部独立的子空间 : <math xmlns="http://www.w3.org/1998/Math/MathML"> S = S L ⊕ S R \mathcal{S}=\mathcal{S}^L \oplus \mathcal{S}^R </math>S=SL⊕SR 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> A = A L ⊕ A R \mathcal{A}=\mathcal{A}^L \oplus \mathcal{A}^R </math>A=AL⊕AR。

在许多场景中，如控制双臂机器人或打台球游戏，可能存在一些稀疏的交互，其中动态可以分解为局部独立的因果机制，如图 14 所示。基于这一发现，Pitis 等人首次引入了局部因果模型，可以通过从全局模型中对状态空间的子集进行条件建模获得。然后，他们提出了一种基于注意力机制的方法，用于发现这种模型，以进行反事实数据增强 (CoDA)。他们的方法最终改善了在批次约束和目标条件设置中的策略学习的样本效率。与上述工作不同的是，Seitzer 等人利用局部因果模型来检测情境相关的因果影响，并改善探索和离策略学习。根据机器人接触物体时才能移动物体的直觉，他们使用条件互信息导出了这种局部因果动作影响 (CAI) 的度量。将这个度量整合到强化学习算法中，他们提出的 CAI 作为探索奖励，用于主动行动探索和离策略训练中的经验回放优先级。

迁移学习为强化学习解决了数据效率和模型转移问题，但仍可能面临可解释性问题。Sun 等人针对这一问题提出了一种基于模型的强化学习算法，通过因果图表示实现了可解释和可迁移的学习。因果模型有助于编码跨领域的不变和变化模块。具体而言，基于扩充的源域数据，他们首先使用可行的因果发现方法 CDNOD 发现感兴趣变量之间的因果关系。然后，他们利用学到的扩充有向无环图 (DAG) 通过训练辅助变量神经网络来推断目标模型。最终，他们将学到的模型转移到使用 DQN 或 DDPG 进行训练的目标策略上。为了处理零样本多任务迁移学习，Kansky 等人引入了模式网络，这是一种面向对象的生成因果模型，用于强化学习和规划。这些网络允许探索事件的多个原因，并通过原因的推理向后实现目标，具有训练效率和鲁棒的泛化能力。

4.2 Partially Observed Markov Decision Process, POMDP

图 15. POMDP 的因果图形说明示例，其中灰色节点是可观察的变量，而白色节点是未观察到的变量。

为了弥合强化学习和因果推理之间的差距，Gasse 等人将基于模型的强化学习视为因果推断模型。具体而言，他们根据部分可观测马尔可夫决策过程 (POMDP) 充分利用在线干预和离线观测数据，并提出了一种通用方法，旨在通过去混杂来揭示潜在的因果转移模型，从而推断 POMDP 转移模型。他们还在渐近情况下给出了正确性和效率的证明。Lu 等人考虑了在存在混杂因素的情况下利用观测历史数据估计策略的强化学习问题。他们将这种形式化称为 "去混杂强化学习"，并将现有的演员-评论家算法扩展为去混杂的变体。大致上说，他们首先从纯观测数据中识别出一个因果模型，发现潜在的混杂因素，并估计它们对行动和奖励的因果效应。然后，他们利用因果知识对混杂因素进行去混杂处理。基于学到的去混杂模型，他们优化最终的策略。这是第一个将混杂因素案例与完整强化学习算法相结合的尝试。

考虑到在现实世界的决策问题中，感知到的高维信号可能包含一些与决策无关或噪音信息，Huang 等人引入了一种最小充分状态表示集合 (简称 ASRs，即 Action-Sufficient Representations 行动充分表示)，用于捕捉下游策略学习所需的充分和必要信息。具体而言，他们首先建立了一个生成环境模型，描述了强化学习系统中变量之间的结构关系，如图 15 所示。通过约束这种关系并最大化累积奖励，他们提出了一种结构化顺序变分自编码器 (Variational Auto-Encoder) 方法，用于估计环境模型和 ASRs。这样学习到的模型和 ASRs 将有效加速策略学习过程。

在类似于图 15 中环境模型的构建之后，Huang 等人提出了一个统一的框架称为 AdaRL，用于强化学习系统在新环境中进行可靠、高效和可解释的调适。具体而言，他们充分利用他们提出的图形表示来描述从源领域到目标领域的变化内容和位置。也就是说，通过学习编码观测、动态和奖励函数变化的分解表示，他们能够从源领域中学习到最优策略。然后，这样的策略通过识别出的变化进行目标领域的适应。实验结果证明了他们基于图形表示的优越策略适应性能。Sonar 等人运用不变性原则提出了一种称为不变策略优化的强化学习算法，具有超越训练领域的泛化能力。在每个领域中遵循 POMDP 设置，他们学习了一个将观测 <math xmlns="http://www.w3.org/1998/Math/MathML"> o t ∈ O o_t\in\mathcal{O} </math>ot∈O 映射到隐藏变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> h t ∈ H h_t\in\mathcal{H} </math>ht∈H 的表示 <math xmlns="http://www.w3.org/1998/Math/MathML"> Φ \Phi </math>Φ，使得存在一个策略 <math xmlns="http://www.w3.org/1998/Math/MathML"> π \pi </math>π 将 <math xmlns="http://www.w3.org/1998/Math/MathML"> h t h_t </math>ht 映射到 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t ∈ A a_t\in\mathcal{A} </math>at∈A，该策略在各个领域中同时是最优的。最终在训练过程中获得了不变策略，这种策略的泛化能力源于其直观地找到成功行动的原因。

为了解决数据效率和可解释性的问题，Liang 等人提出了一种用于 POMDP 的算法，用于发现机器人在规则或任意时间点上事件之间的时滞因果关系，并学习转移模型。他们引入了隐藏变量来表示记忆单元中的过去事件，并减少观测的随机性。通过这种方式，他们训练神经网络来预测奖励和观测，同时确定了不同时间步骤的观测之间的图形模型。然后，他们使用基于模型的强化学习进行规划。受到动物能够通过与环境的互动来推理其行为并辨识变化的因果机制的启发，Sontakke 等人首次提出了因果 POMDP 模型，并引入了一种称为因果好奇心的内在奖励。这种因果好奇心使得智能体能够识别环境动态中的因果因素，对学到的行为进行解释，并提高在迁移学习中的样本效率。为了在观测空间具有高维度的环境中实现高效的策略学习，Zhang 等人提出了一种基于原则的方法来估计环境的因果状态，粗略地表示 POMDP 中的动作和观测历史。这些因果状态形成了一个离散的因果图，并有助于根据历史预测下一个观测，进一步促进策略学习。

4.3 MultiArmed Bandits, MAB

对于因果发现环境下的多臂老虎机 (MAB) 问题，Lu 等人提出了一种称为中心节点 UCB (CNUCB) 的因果博弈算法，而无需了解因果结构。他们的方法适用于因果树、因果森林、合适的区间图等。具体而言，他们首先将一个无向树骨架结构作为输入，并输出奖励的直接原因。然后，他们在减小的动作集上应用 UCB 算法来识别最佳臂。最后，他们理论上证明，在一些温和条件下，他们的方法的遗憾 (regret) 与因果图中的变量数量的对数成比例。正如所述，他们的方法是第一种在未知因果图的情况下具有更好遗憾保证的因果博弈方法，超过了标准 MAB 方法。

关于上下文老虎机问题，Saengkyongam 等人通过因果关系的视角解决了离线环境中的转移问题。他们提出的多环境上下文老虎机算法允许底层机制的变化。他们还明确指出，在存在未观察到的混淆因素的情况下，他们引入的策略不变性可以在某些假设下促进跨环境的泛化。策略不变性的关键在于确定不变性集，这可以通过结构学习暗示或在分布转移下通过统计方法进行测试。Tennenholtz 等人研究了具有观测到的离线数据的线性上下文老虎机问题。他们表明，部分观测到的混淆信息可以被描述为线性约束，可以估计和利用这些信息进行在线学习。他们提出的方法能够实现更好的总遗憾 (regret)。

4.4 Imitation Learning Model, IL

图 16. 因果错误识别现象 : 访问更多信息可能会产生更差的模仿学习性能

以汽车自动驾驶为例，De 等人证明在模仿学习的训练过程中对因果关系视而不见将对学习策略造成破坏，导致一个称为 "因果误识" (如图 16 所示) 的问题。这种现象意味着 : 获取更多信息可能会导致性能变差。为了解决这个问题，他们提出了一种基于因果的方法。首先，他们从因果图到策略学习了一个映射函数。然后通过有针对性的干预，无论是环境交互还是专家查询，他们确定了正确的因果模型以及策略。然而，这个算法在自动驾驶中具有较高的复杂性。因此，Samsami 等人提出了一种高效的因果模仿模型 (CIM)，用于处理自动驾驶中的惯性和碰撞问题。这些不良问题是由于忽视了专家示范中的因果结构所导致的。CIM 首先从潜在的学习表示中识别出因果关系，并使用 Granger 因果性估计下一个位置。基于这些原因，CIM 学习了驾驶汽车的最终策略。Wen 等人考虑了一个更具体的因果混淆现象，即 "抄袭问题" : 模仿者倾向于简单地复制并重复前一个时间步骤的专家动作。为了解决这个问题，他们提出了一种对抗性模仿学习方法，用于学习一个特征表示，忽略前一个动作的无关相关性，同时保留下一个动作的有用信息；Wen 等人在模仿学习目标函数中给予那些对应于专家动作转变点的关键帧更高的权重，以学习抄袭快捷策略；Wen 等人提出了 PrimeNet 算法以提高鲁棒性并避免快捷解决方案。由于将现有的自动驾驶方法很好地扩展到实际场景仍然是一个未解决的问题，Codevilla 等人探讨了行为克隆的局限性，并提供了一个新的研究基准。例如，他们报告了泛化问题部分是由于缺乏因果模型引起的。数据偏差可能导致惯性问题，同时遭受因果混淆。在自动驾驶中明确地学习和应用因果模型是可取的。Volodin 等人和 Lee 等人通过对环境进行干预学习了状态和动作之间的因果结构，使策略学习过程只接受因果状态作为输入，并防止变量之间的虚假相关性。

图 17 . 模仿学习的因果图示例，其中专家示范包括观测值 <math xmlns="http://www.w3.org/1998/Math/MathML"> x t x_t </math>xt 和动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at。状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 由动作的因果父节点组成，而 <math xmlns="http://www.w3.org/1998/Math/MathML"> η t \eta_t </math>ηt 则是噪声表示，包含与动作的所有虚假相关性。

关于泛化问题，Lu 等人采用统一的方式进行了形式化，将其称为表征泛化、策略泛化和动态泛化。他们遵循行为克隆方法学习模仿策略，并提出了一个通用框架来处理这些泛化问题，具有更温和的假设和理论保证。他们确定了目标变量的直接原因，并使用这些原因来预测不变表示，从而实现泛化。Bica 等人旨在从多个环境中在严格的批处理设置中学习可泛化的模仿策略，并将其部署到未知环境中。为了解决专家示范中变量之间的虚假相关性问题以及多个不同环境下的转换动态不匹配问题，他们学习了一个共享的不变表示，即编码专家动作原因的潜在结构，以及一个环境特定的噪声表示 <math xmlns="http://www.w3.org/1998/Math/MathML"> η \eta </math>η，如图 17 所示。

关于解释问题，Bica 等人弥合了反事实推理和离线批处理逆强化学习之间的差距，并提出根据专家行为的权衡来学习奖励函数。他们的方法根据假设方案对奖励函数进行参数化，生成可解释的序贯决策描述。由于他们估计了不同动作的因果效应，反事实推理可以处理批处理设置中策略评估的离策略特性。对于具有未知因果结构的模仿学习方法，Katz 等人在 2016 年首次提出了一个以因果推理为中心的通用认知机器人模仿学习框架。该框架侧重于使用因果推理方法推断出示范者意图的分层表示，并提供关于示范者行为的解释。在这种因果解释中，顶层意图被表示为技能的抽象，然后可以在新情境中重新使用以完成特定计划。此外，在规划过程中，Katz 等人建立了因果计划图 (CPGs)，模拟了隐藏意图、动作和目标之间的因果关系。CPGs 自动提供了计划动作的因果驱动解释。

5 方法总结

Problems	CRL with Unknown Causal Information	CRL with Known Causal Information	Classical RL
Environment Modeling	compact causal graphs, confounding effects	compact causal graphs, confounding effects <math xmlns="http://www.w3.org/1998/Math/MathML"> \quad </math> fully connected graphs	fully connected graphs
Off-Policy Learning and Evaluation	action influences detection	confounding effects	no confounding effects
Data Augmentation	structural causal model learning	intervention and counterfactual reasoning	model-based RL
Generalization	causal discovery and causal invariance	invariance with causal information	invariance
Theory Analysis	causal identifiability and convergence	convergence with causal information	convergence

表 3. 现有CRL方法的特点的概述。

图 18. 一个因果强化学习框架的草图，展示了因果信息如何启发当前的强化学习算法。该框架包含了规划和受因果启发的学习过程之间可能的算法连接。箭头的解释如下：a) 用于因果表示或抽象学习的输入训练数据；b) 来自现实世界的表示、抽象或训练数据用于因果模型；c) 在学习或给定的因果模型上进行规划；d) 使用策略或值网络的信息改进规划过程；e) 使用规划结果作为策略或值函数的训练目标；g) 输出规划结果在现实世界中的动作；h) 输出策略/值函数在现实世界中的动作；f) 用于策略或值更新的因果表示、抽象或训练数据来自现实世界。

因果强化学习框架的草图如图 18 所示，概述了规划和受因果启发的学习过程之间可能的算法连接。因果启发的学习可以在三个位置进行 : 学习因果表示或抽象 (箭头 a)，学习动态因果模型 (箭头 b)，以及学习策略或值函数 (箭头 e 和 f)。大多数 CRL 算法只实现了可能的因果连接的一个子集，在数据效率、可解释性、鲁棒性或模型/策略的泛化等方面享有潜在的优势。

根据与因果性相关的不同问题类型，我们对 CRL 和传统强化学习算法的特点进行了概述，简要描述如表 III-C 所示。特别是在环境建模方面，CRL 通常使用结构方程模型来表示感兴趣变量之间的关系，作为紧凑的因果图，并可能考虑潜在的混淆因素；而传统强化学习通常将环境模型视为完全有向图，例如，时间t的所有状态都会影响时间 (t+1) 的所有状态。在离策略学习和评估方面，具有未知因果信息的 CRL 可以评估不同动作的影响，而具有已知因果信息的 CRL 通常通过敏感性分析研究策略上的混淆效应。传统强化学习不会建模混淆效应。在数据增强问题上，传统强化学习有时基于基于模型的强化学习，而 CRL 基于结构因果模型。在学习这样的模型之后，CRL 可以进行反事实推理来实现数据增强。在泛化方面，传统强化学习试图探索不变性，而 CRL 试图利用因果信息产生因果不变性，例如结构不变性、模型不变性等。在理论分析方面，传统强化学习通常关注收敛性，包括学习策略的样本复杂度和后悔界限，或模型误差；CRL 也关注收敛性，但加入了因果信息，并侧重于因果结构可识别性分析。

6 评估指标

在本节中，我们列出了因果强化学习中常用的一些评估指标，这些指标基本上源于强化学习和因果关系领域。

6.1 策略

为了评估算法的性能，通常通过平均累积奖励、平均累积后悔、分数成功率、选择最优动作的概率或其变体来评估估算的策略。在训练或测试阶段，累积奖励是根据定义的奖励函数在每个回合 (或每次运行) 上进行平均计算。累积后悔是最优策略与代理策略之间的奖励差异，经过每个回合 (或每次运行) 的计算和平均。分数成功率 (FSR) 通常用于机器人操作或相关任务的评估，例如将物体拾取到目标位置。FSR 衡量了物体和目标之间的重叠成功率。在因果赌博问题中，选择最优臂的概率可以作为评估指标。它衡量每个回合中所有时间步骤中最优动作的百分比。

6.2 模型

在具有环境模型的因果强化学习中，我们可以评估学习到的动态的质量。这种质量可以通过动态之间的转换损失来衡量，即真实状态与预测状态之间的差异，例如
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> Errors M = ∑ episodes ∑ t ( s t − s ^ t ) 2 \text { Errors }M=\sum{\text {episodes }} \sum_t\left(s_t-\hat{s}_t\right)^2 </math> Errors M=episodes ∑t∑(st−s^t)2

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 代表真实的状态，而 <math xmlns="http://www.w3.org/1998/Math/MathML"> s ^ t \hat{s}_t </math>s^t 代表来自动态模型的预测状态。通常，较低的转换损失有助于学习一个良好的策略。

6.3 因果结构

当在因果强化学习中识别因果结构时，可以评估结构学习的准确性。因此，现有的工作通常使用地面实况图来计算边缘精度 (正式称为精度)。在因果发现领域，召回率和 F1 值也用于评估。它们的定义如下，
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> Precision = T P T P + F P Recall = T P T P + F N F 1 = 2 × Precision × Recall Precision + Recall \begin{gathered} \text { Precision }=\frac{T P}{T P+F P} \\ \text { Recall }=\frac{T P}{T P+F N} \\ F 1=\frac{2 \times \text { Precision } \times \text { Recall }}{\text { Precision }+ \text { Recall }} \end{gathered} </math> Precision =TP+FPTP Recall =TP+FNTPF1= Precision + Recall 2× Precision × Recall

其中 TP、FP、FN 分别是真正性、假正性和假负性。TP 正确地指示了图中边的存在；FP 错误地指示在图中存在边，而 FN 错误地指示图中不存在边。

7 实际应用

略

参考资料 (References)

A Survey on Causal Reinforcement Learning

因果强化学习综述(下)