因果强化学习综述(1)

0.综述信息和个人感想

最近看看因果强化学习的工作,希望能有一些灵感。为了快速快明白,采用通篇大部分翻译+个人理解的方式,希望能有所帮助。

1.介绍

强化学习 (RL) 是智能体学习策略 (从状态到动作的映射函数) 的通用框架,以最大化环境中的预期奖励。它试图通过试错方案来解决顺序决策问题,而智能体与环境交互。由于其在性能方面的显著成功,它已被迅速开发和部署在各种现实应用中,包括游戏、机器人控制和推荐系等,越来越受到不同学科研究人员的关注。

然而,强化学习存在一些关键挑战,仍然需要解决。例如,(i) 数据效率低下。以前的方法大多需要交互数据,而在现实场景中,例如在医学或医疗保健中,只有少量数据可用,主要是由于昂贵的、不道德或困难的收集程序。(ii) 缺乏可解释性。现有方法通常通过黑盒的深度神经网络形式化强化学习问题,将序列数据作为输入,将策略作为输出。他们很难揭示数据背后的状态、动作或奖励之间的内在关联,并提供策略锁对应的直觉。这样的挑战将阻碍其在工业中的实际应用。

有趣的是,使用因果关系可能在处理上述强化学习的挑战中发挥不可或缺的作用。因果关系考虑两个基本问题:(1) 因果关系的合理推断需要什么样的经验证据? 这种用证据揭示因果关系的过程简称为因果发现。(2) 给定关于一个现象的公认的因果信息,我们可以从这些信息中得出什么推论,如何推断? 这种推断因果效应或其他利益的过程称为因果推理。因果关系可以使智能体通过因果关系的阶梯进行干预或反事实推理,从而放宽对大量训练数据的要求;它还能够表征世界模型,潜在地为代理如何与环境相互作用提供可解释性。

在过去的几十年里,因果关系和强化学习都在理论和技术上取得了巨大的发展,而它们本可以相互协调地融合在一起。Bareinboim 将它们放在同一个概念和理论的保护伞下,开发了一个称为因果强化学习的统一框架,并提供了在线介绍教程;Lu 受当前医疗保健和医学发展的启发,将因果关系和强化学习结合起来,引入因果强化学习,并强调其潜在的适用性。近年来,人们提出了一系列与因果强化学习相关的研究,需要对其发展和应用进行全面的调查。因此,在本文中,我们专注于为读者提供关于因果强化学习的概念、类别和实际问题的良好知识。

虽然有一些相关的综述,如 Grimbly 等人对因果多智能体强化学习进行了调查;Bannon 等人在批强化学习中的因果效应估计和 off-policy 评估方面的研究,这里我们考虑案例,但不限于多智能体或 off-policy 评估案例。最近,Kaddour 等人在 arXiv 上上传了一篇关于因果机器学习的调查,其中包括因果强化学习的一章。他们根据因果关系可能带来好处的不同 强化学习 问题,总结了因果关系带来好处的方法,如因果老虎机、基于模型的强化学习、策略外策略评估等。这种分类方法可能不完整,从而遗漏了一些其他强化学习问题,例如多智能体强化学习。在本文中,我们只是完整地构建了这些因果强化学习方法的分类框架。我们这篇调查论文的贡献如下 :

  • 我们正式定义了因果强化学习,据我们所知,我们第一次从因果关系的角度将现有的方法分为两类。第一类是基于先验的因果信息,通常这种方法假设环境或任务的因果结构是由专家给出的先验,而第二类是基于未知的因果信息,其中必须学习策略的相对因果信息。
  • 我们对每个类别的当前方法进行了全面的回顾,并提供了系统的描述 (和示意图)。关于第一类,CRL 方法在策略学习中充分利用先验因果信息,以提高样本效率、因果解释或泛化能力。对于具有未知因果信息的 CRL,这些方法通常包括两个阶段:因果信息学习和策略学习,这两个阶段是迭代或依次进行的。
  • 我们进一步分析和讨论了 CRL 的应用、评估指标、开源代码以及未来的方向。

2.预备知识

本文在此提供了强化学习和因果推断的一些基础知识,在此对于我不是很熟悉的部分进行回顾,同时对于剩下的概念和公式进行罗列 :


2.1 因果

2.1.1 定义和假设

定义 1 (因果结构模型 SCM)

定义 2 (Rubin 因果模型) : Rubin 因果模型涉及 <math xmlns="http://www.w3.org/1998/Math/MathML"> { Y i , T i , X i } \{Y_i,T_i,X_i\} </math>{Yi,Ti,Xi} 的观测数据集,其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> Y i Y_i </math>Yi 表示单位 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 的潜在结果; <math xmlns="http://www.w3.org/1998/Math/MathML"> T i ∈ { 0 , 1 } T_i\in\{0,1\} </math>Ti∈{0,1} 表示是否接受治疗的指示变量; <math xmlns="http://www.w3.org/1998/Math/MathML"> X i X_i </math>Xi 是一组协变量。

Rubin 因果模型也被称为潜在结果框架或 Neyman-Rubin 潜在结果。由于一个单位不能同时接受不同的治疗,而只能一次接受一种治疗,因此不可能同时获得两种潜在的结果,必须估计缺失的结果。对于潜在的结果,Rubin 因果模型旨在估计治疗效果。

定义 3 (治疗效果) 我们将其指标进行罗列

  • 平均治疗效应 (Average Treatment Effect, ATE)
    <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ATE ⁡ = E [ Y ( T = 1 ) − Y ( T = 0 ) ] \begin{align} \operatorname{ATE}=\mathbb{E}[Y(T=1)-Y(T=0)] \end{align} </math>ATE=E[Y(T=1)−Y(T=0)]
  • 平均治疗组治疗效应 (Average Treatment effect on the Treated group, ATT)
    <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ATT ⁡ = E [ Y ( T = 1 ) ∣ T = 1 ] − E [ Y ( T = 0 ) ∣ T = 1 ] \begin{align} \operatorname{ATT}=\mathbb{E}[Y(T=1) \mid T=1]-\mathbb{E}[Y(T=0) \mid T=1] \end{align} </math>ATT=E[Y(T=1)∣T=1]−E[Y(T=0)∣T=1]
  • 条件平均治疗效应 (Conditional Average Treatment Effect, CATE)
    <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> CATE ⁡ = E [ Y ( T = 1 ) ∣ X = x ] − E [ Y ( T = 0 ) ∣ X = x ] \begin{align} \operatorname{CATE}=\mathbb{E}[Y(T=1) \mid X=x]-\mathbb{E}[Y(T=0) \mid X=x] \end{align} </math>CATE=E[Y(T=1)∣X=x]−E[Y(T=0)∣X=x]
  • 个体治疗效应 (Individual Treatment Effect, ITE)
    <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ITE ⁡ i = Y i ( T = 1 ) − Y i ( T = 0 ) \begin{align} \operatorname{ITE}_i=Y_i(T=1)-Y_i(T=0) \end{align} </math>ITEi=Yi(T=1)−Yi(T=0)

定义 4 (混杂因子 Confounder)

定义 5 (工具变量 Instrumental Variables, IVs)

定义 6 (条件独立)

定义 7 (后门 Back-Door) 对于有向无环图 (DAG) 中的有序变量对 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( x i , x j ) (x_i,x_j) </math>(xi,xj),一组变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 满足后门准则,如果 : (i) 在 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 中没有节点是 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 的后代;(ii) <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 阻塞 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> x j x_j </math>xj 之间包含指向 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 的箭头的所有路径。同样,如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> Y \mathbf{Y} </math>Y 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> W \mathbf{W} </math>W 是 DAG 中两个不相交的节点子集,则如果 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 满足相对于任意一对 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( x i , x j ) (x_i,x_j) </math>(xi,xj) 的准则 ( <math xmlns="http://www.w3.org/1998/Math/MathML"> x i ∈ Y , x j ∈ W x_i\in\mathbf{Y},x_j\in\mathbf{W} </math>xi∈Y,xj∈W),则称 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 满足相对于 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( Y , W ) (\mathbf{Y},\mathbf{W}) </math>(Y,W) 的后门准则。

定义 8 (前门 Front-Door) 一组变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 相对于一组有序变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( x i , x j ) (x_i,x_j) </math>(xi,xj) 满足前门准则,如果 : (i) <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 拦截了从 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 到 <math xmlns="http://www.w3.org/1998/Math/MathML"> x j x_j </math>xj 的所有有向路径;(ii) 从 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 到 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 不存在后门路径;(iii) 从 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z \mathbf{Z} </math>Z 到 <math xmlns="http://www.w3.org/1998/Math/MathML"> x j x_j </math>xj 的所有后门路径都被 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i x_i </math>xi 阻塞。

图 1 . 后门和前门标准的示例说明,其中未阴影变量被观察到,而阴影变量未被观察到。(b) 中的 <math xmlns="http://www.w3.org/1998/Math/MathML"> x 1 x_1 </math>x1 是一个潜在的混杂因素。

后门准则和前门准则是判断一组变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z ⊆ X \mathbf{Z} \subseteq \mathbf{X} </math>Z⊆X 是否足以估计因果效应 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( x j ∣ x i ) P\left(x_j \mid x_i\right) </math>P(xj∣xi) 的两个简单图形检验,如图 1 所示,变量集 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z = { x 3 , x 4 } \mathbf{Z}=\left\{x_3, x_4\right\} </math>Z={x3,x4} 满足后门准则,而 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z = { x 2 } \mathbf{Z}=\left\{x_2\right\} </math>Z={x2} 满足前门准则。

定义 9 (关联 (see))

定义 10 (干预 (do))

定义 11 (反事实 (imagine))

为了找到因果结构,通常会做出以下假设 1-3 :

假设 1 (因果马尔可夫假设 Causal Markov Assumption) 概率总体分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P P </math>P 相对于因果图 (DAG) 是马尔可夫的一个充分必要条件是,每个变量独立于其父变量的所有非子代。

假设 2 (因果可信假设 Causal Faithfulness Assumption) 总体中的概率分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P P </math>P 没有额外的条件独立关系,这些关系不是由因果图的数据分离引起的。

假设 3 (因果缺陷假设 Causal Sufficiency Assumption) 对于一组变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> X \mathbf{X} </math>X,没有隐藏的共同原因,即潜在混杂变量,这会导致 <math xmlns="http://www.w3.org/1998/Math/MathML"> X \mathbf{X} </math>X 中的多个变量。

假设 4-6 通常用于因果推理来估计治疗效果。

假设 4 (表单元处理值假设 Stable Unit Treatment Value Assumption) 任何给定单元的潜在结果不会随着分配给其他单元的处理而变化,并且对于每个单元,没有不同的处理版本,这会导致不同的潜在结果。

假设 5 (可忽略性 Ignorability) 给定背景协变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> X X </math>X,治疗分配 <math xmlns="http://www.w3.org/1998/Math/MathML"> T T </math>T 与潜在结果无关,即 <math xmlns="http://www.w3.org/1998/Math/MathML"> T ⊥  ⁣  ⁣  ⁣  ⁣ ⊥ Y ( T = 0 ) , Y ( T = 1 ) ∣ X T \perp\!\!\!\!\perp Y(T=0), Y(T=1) \mid X </math>T⊥⊥Y(T=0),Y(T=1)∣X。

假设 6 (积极性 Positive) 给定 <math xmlns="http://www.w3.org/1998/Math/MathML"> X X </math>X 的任何值,治疗分配 <math xmlns="http://www.w3.org/1998/Math/MathML"> T T </math>T 不确定:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> P ( T = t ∣ X = x ) > 0 , ∀ t and x \begin{align} P(T=t \mid X=x)>0, \quad \forall\ t \text { and } x \end{align} </math>P(T=t∣X=x)>0,∀ t and x


2.1.2 因果发现

至于从数据中识别因果结构,传统的方法是使用干预措施、随机或对照实验,这在许多情况下过于昂贵、太耗时,甚至太不道德而无法进行。因此,从纯观测数据 (称为因果发现) 中发现因果信息引起了人们的广泛关注。大致有两种经典的因果发现方法 : 基于约束的方法和基于分数的方法。在 1990 年代初期,基于约束的方法利用条件独立关系在适当的假设下恢复观察到的变量之间的潜在因果结构。这种方法包括 PC 和 Fast Causal Inference (FCI),它允许不同类型的数据分布和因果关系,并给出近似正确的结果。PC 算法假设底层因果图中没有潜在的混杂因素;而 FCI 能够处理具有潜在混杂因素的情况。然而,它们恢复的内容属于因果结构的等价类,其中包含多个 DAG 包含相同的条件独立关系。另一方面,基于分数的方法试图通过优化适当定义的评分函数来搜索等价类,如贝叶斯信息准则 (BIC)、广义评分函数等。他们输出一个或多个得分最高的候选因果图。一个众所周知的两阶段搜索过程是贪婪的等价搜索 (GES),它直接在等价类空间上搜索。

为了区分等价类中的不同 DAG 并享受因果结构的独特可识别性,出现了基于约束函数因果模型的算法。这些算法假设数据生成机制,包括模型类或噪声分布 : 效应变量是直接原因和独立噪声的函数,如公式 <math xmlns="http://www.w3.org/1998/Math/MathML"> x i = f i ( p a i , u i ) , i = 1 , ... , n x_i=f_i\left(p a_i, u_i\right), i=1, \ldots, n </math>xi=fi(pai,ui),i=1,...,n 所示,其中原因 <math xmlns="http://www.w3.org/1998/Math/MathML"> p a i p a_i </math>pai 与噪声 <math xmlns="http://www.w3.org/1998/Math/MathML"> u i u_i </math>ui 无关。这导致了因果结构的独特可识别性,因为模型假设,例如 <math xmlns="http://www.w3.org/1998/Math/MathML"> p a i p a_i </math>pai 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> u i u_i </math>ui 之间的独立性,仅适用于真正的因果方向,而对错误的方向则被违背。这些约束函数因果模型的示例是线性非高斯非循环模型 (LiNGAM)、加性噪声模型 (ANM)、后非线性模型 (PNL) 等。

此外,有人指出,研究人员感兴趣的课题有许多重大但具有挑战性。例如,人们可能对时间序列数据的算法感兴趣。这些算法包括 tsFCI、SVARFCI、tsLiNGAM、LPCMCI 等。特别是,Granger 因果关系允许推断时间序列的因果结构,没有即时影响或潜在的混杂因素。它已经广泛应用于经济学预测。基于约束的异构/非平稳数据因果发现 (CD-NOD) 适用于底层生成过程跨域或随时间变化的情况。它揭示了因果框架和方向,并估计了变化的因果模块的低维表示。


2.1.3 因果推断

从数据中学习因果效应,最有效的方法也是进行随机实验,比较对照组和治疗组的差异。然而,由于成本高、实用性和伦理问题,其应用在很大程度上受到限制。因此,从观测数据估计治疗效果已引起越来越多的兴趣。

从观测数据中进行因果推断的困难在于混杂变量的存在,这导致 (i) 治疗组和对照组之间的选择偏差,以及 (ii) 虚假效应。这些问题会使治疗结果的估计性能变差。为了处理伪效果问题,一种代表性的方法是分层,也称为子分类或阻塞。这个想法是将整个组分成同质的子组,治疗组和对照组中的每个子组在某些协变量上具有相似的特征。为了克服选择偏差的挑战,一般有两种类型的因果推理方法。第一个目的是创建一个与被治疗组近似一致的伪组。这些方法包括样本重加权方法、匹配方法、基于树的方法、基于表示的方法等。其他类型的方法,如基于元学习的方法,首先在观测数据上训练结果估计模型,然后纠正由选择偏差引起的估计偏差。

上述因果推理方法依赖于假设 4-6 的满足。在实践中,这样的假设可能并不总是成立。例如,当潜在混杂因素存在时,假设 5 不成立,即 <math xmlns="http://www.w3.org/1998/Math/MathML"> T ⊥̸  ⁣  ⁣  ⁣  ⁣ ⊥ Y ( T = 0 ) , Y ( T = 1 ) ∣ X T \not \perp\!\!\!\!\perp Y(T=0), Y(T=1) \mid X </math>T⊥⊥Y(T=0),Y(T=1)∣X。在这种情况下,一种解决方案是应用敏感性分析来研究推断如何随着给定的未测量混杂因素的不同程度而变化。敏感性分析通常通过不可识别分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( Y ( T = t ) ∣ T = 1 − t , X ) P(Y(T=t) \mid T=1-t, X) </math>P(Y(T=t)∣T=1−t,X) 与可识别分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( Y ( T = t ) ∣ T = t , X ) P(Y(T=t) \mid T=t, X) </math>P(Y(T=t)∣T=t,X) 之间的差异来量化不可测量的混杂或隐藏偏差。
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> c t ( X ) = E ( Y ( T = t ) ∣ T = 1 − t , X ) − E ( Y ( T = t ) ∣ T = t , X ) \begin{align} c_t(X) =\mathbb{E}(Y(T=t) \mid T=1-t, X)-\mathbb{E}(Y(T=t) \mid T=t, X) \end{align} </math>ct(X)=E(Y(T=t)∣T=1−t,X)−E(Y(T=t)∣T=t,X)

指定 <math xmlns="http://www.w3.org/1998/Math/MathML"> c t ( X ) c_t(X) </math>ct(X) 的边界,可以获得结果 <math xmlns="http://www.w3.org/1998/Math/MathML"> E ( Y ( T = t ) ) \mathbb{E}(Y(T=t)) </math>E(Y(T=t)) 的期望边界,其形式为不可识别的选择偏差。另一种可能的解决方案是充分利用工具变量 (IV) 回归方法和近因学习 (PCL) 方法。这些方法用于预测治疗或策略的因果效应,即使存在潜在混杂因素。值得注意的是,PCL 背后的直觉是构造两个条件独立的代理变量,以反映未观察到的混杂因素的影响。图 2 展示了工具变量和代理变量的示例。

图 2 . 工具变量和代理变量的说明示例,其中非阴影的变量可以被观察到,而阴影的变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> U U </math>U 未被观察到。 <math xmlns="http://www.w3.org/1998/Math/MathML"> T T </math>T 代表治疗, <math xmlns="http://www.w3.org/1998/Math/MathML"> Y Y </math>Y 代表结果。在 (a) 子图中, <math xmlns="http://www.w3.org/1998/Math/MathML"> Z Z </math>Z 为工具变量,(b) 子图中 <math xmlns="http://www.w3.org/1998/Math/MathML"> { Z , W } \{Z, W\} </math>{Z,W} 为代理变量。


2.2 强化学习

2.2.1 定义

与有监督学习和无监督学习相比,强化学习具有两个关键组成部分的优势 : 最优控制和试错。基于最优控制问题,Richard Bellman 发展了一种动态规划方法,利用带有系统状态信息的值函数进行数学形式化。这样的值函数被称为Bellman方程,表示为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> V ( s t ) = r ( s t ) + γ ∑ P ( s t + 1 ∣ s t , a t ) ⋅ V ( s t + 1 ) \begin{align} V\left(s_t\right)=r\left(s_t\right)+\gamma \sum P\left(s_{t+1} \mid s_t, a_t\right) \cdot V\left(s_{t+1}\right) \end{align} </math>V(st)=r(st)+γ∑P(st+1∣st,at)⋅V(st+1)

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> V ( s t ) V\left(s_t\right) </math>V(st) 是时刻 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 的值函数, <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 是下一个状态, <math xmlns="http://www.w3.org/1998/Math/MathML"> r ( s t ) r(s_t) </math>r(st) 是奖励函数, <math xmlns="http://www.w3.org/1998/Math/MathML"> γ \gamma </math>γ 是折现因子。 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( s t + 1 ∣ s t , a t ) \mathcal{P}\left(s_{t+1} \mid s_t, a_t\right) </math>P(st+1∣st,at) 是给定当前状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 和动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 时, <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 的跃迁概率。通过互动学习是强化学习的本质。主体通过在状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 采取行动与环境进行交互,一旦观察到其下一个状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 和奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r ( s t ) r(s_t) </math>r(st),它需要调整策略以争取最优收益。这种试错学习机制源于动物心理学,这意味着导致好结果的行为很可能被重复,而导致坏结果的行为则被减弱。

强化学习解决了在不同环境中从可用信息中学习策略的问题,包括多臂老虎机 (MultiArmed Bandits, MAB)、上下文老虎机 (Contextual Bandits, CB)、马尔可夫决策过程 (Markov Decision Process, MDP)、部分观察马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP)、模仿学习 (Imitation Learning, IL) 和动态治疗机制 (Dynamic Treatment Regime, DTR)。

定义 12 (马尔可夫决策过程 Markov Decision Process, MDP)

定义 13 (部分观察马尔可夫决策过程 Partially Observed Markov Decision Process, POMDP) 部分观察到的马尔可夫决策过程被定义为一个元组 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = ( S , A , O , P , R , E , γ ) \mathcal{M}=(\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{E}, \gamma) </math>M=(S,A,O,P,R,E,γ),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> S , A , P , R , γ \mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma </math>S,A,P,R,γ 与 MDP 中的相同。 <math xmlns="http://www.w3.org/1998/Math/MathML"> O \mathcal{O} </math>O 表示观测集 <math xmlns="http://www.w3.org/1998/Math/MathML"> s o ∈ O \mathrm{s} o \in \mathcal{O} </math>so∈O,而 <math xmlns="http://www.w3.org/1998/Math/MathML"> E \mathcal{E} </math>E 是确定分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> E ( o t ∣ s t ) \mathcal{E}\left(o_t \mid s_t\right) </math>E(ot∣st) 的发射函数。

定义 14 (多臂老虎机 MultiArmed Bandits, MAB) 一个K-臂老虎机问题被定义为一个元组 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = ( A , R ) \mathcal{M}=(\mathcal{A}, \mathcal{R}) </math>M=(A,R),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> A \mathcal{A} </math>A 是玩家在第 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 轮中从 K 个臂 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t ∈ A = { a 1 , ... , a K } a_t \in \mathcal{A}=\left\{a_1, \ldots, a_K\right\} </math>at∈A={a1,...,aK}, <math xmlns="http://www.w3.org/1998/Math/MathML"> R \mathcal{R} </math>R 是一组结果变量,表示奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r t ∈ { 0 , 1 } r_t \in\{0,1\} </math>rt∈{0,1}。

注意,当在K-臂老虎机中存在未观察到的混杂因子时,模型将被建立并替换为 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = ( A , R , U ) \mathcal{M}=(\mathcal{A}, \mathcal{R}, U) </math>M=(A,R,U),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> U U </math>U 是未观察到的变量,它意味着在处选择臂 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 的支付率和选择臂 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 的倾向得分。

定义 15 (上下文老虎机 Contextual Bandits, CB) 上下文老虎机被定义为元组 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = ( X , A , R ) \mathcal{M}=(\mathcal{X}, \mathcal{A}, \mathcal{R}) </math>M=(X,A,R),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> A \mathcal{A} </math>A 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> R \mathcal{R} </math>R 与多臂老虎机中定义相同。 <math xmlns="http://www.w3.org/1998/Math/MathML"> X \mathcal{X} </math>X 是一组上下文,即观察到的辅助信息。

定义 16 (模仿学习模型 Imitation Learning Model, IL) 模仿学习模型被定义为元组 <math xmlns="http://www.w3.org/1998/Math/MathML"> M = ( O , T ) \mathcal{M}=(\mathcal{O}, \mathcal{T}) </math>M=(O,T),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> O \mathcal{O} </math>O 表示可访问的高维观测 <math xmlns="http://www.w3.org/1998/Math/MathML"> o ∈ O o\in\mathcal{O} </math>o∈O,而 <math xmlns="http://www.w3.org/1998/Math/MathML"> T \mathcal{T} </math>T 表示由专家策略 <math xmlns="http://www.w3.org/1998/Math/MathML"> T ∼ π D ( ⋅ ∣ o ) \mathcal{T} \sim \pi_D(\cdot \mid o) </math>T∼πD(⋅∣o) 生成的轨迹。

定义 17 (动态治疗机制 Dynamic Treatment Regime, DTR) 动态处理机制被定义为一系列决策规则 <math xmlns="http://www.w3.org/1998/Math/MathML"> { π T : ∀ T ∈ T } \left\{\pi_T: \forall T \in \mathbf{T}\right\} </math>{πT:∀T∈T},其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> T \mathbf{T} </math>T 是一组处理。每个 <math xmlns="http://www.w3.org/1998/Math/MathML"> π T \pi_T </math>πT 是从处理和协变量的历史 <math xmlns="http://www.w3.org/1998/Math/MathML"> H T H_T </math>HT 的值到 <math xmlns="http://www.w3.org/1998/Math/MathML"> T T </math>T 上的概率分布域的映射函数,用 <math xmlns="http://www.w3.org/1998/Math/MathML"> π T ( T ∣ H T ) \pi_T\left(T \mid H_T\right) </math>πT(T∣HT) 表示。


2.2.2 无模型方法

无模型强化学习方法通常可以不可逆地访问世界模型,但直接且纯粹从与环境的交互中学习策略,类似于我们在现实世界中的行为。流行的方法包括基于策略的方法、基于价值的方法和行为批评的方法。

基于策略的方法通过策略参数 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ 直接学习最优策略 <math xmlns="http://www.w3.org/1998/Math/MathML"> π ∗ \pi^* </math>π∗,以最大化累积奖励。他们基本上采用了最佳策略梯度定理来推导 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ。经典的方法有信赖域策略优化 (Trust Region Policy Optimization, TRPO)、近端策略优化 (Proximal Policy Optimization, PPO) 等,它们使用函数近似自适应或人工调整超参数来加速方法的收敛。

在基于值的方法中,代理更新值函数以获得最优值 <math xmlns="http://www.w3.org/1998/Math/MathML"> Q ∗ ( s , a ) Q^*(s, a) </math>Q∗(s,a),从而隐式获得策略。Q学习、状态-行动-奖励-状态-行动 (Sarsa) 和深度 Q 学习网络 (DQN) 是典型的基于价值的方法。Q 学习和 Sarsa 的更新规则涉及学习率 <math xmlns="http://www.w3.org/1998/Math/MathML"> a l p h a alpha </math>alpha 和时间差误差 <math xmlns="http://www.w3.org/1998/Math/MathML"> δ t \delta_t </math>δt :
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> Q ( s t , a t ) = Q ( s t , a t ) + α δ t \begin{align} Q\left(s_t, a_t\right)=Q\left(s_t, a_t\right)+\alpha \delta_t \end{align} </math>Q(st,at)=Q(st,at)+αδt

其中,在非策略 Q 学习中, <math xmlns="http://www.w3.org/1998/Math/MathML"> δ t = r t + 1 + γ max ⁡ a t + 1 Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) \delta_t=r_{t+1}+\gamma \max {a{t+1}} Q\left(s_{t+1}, a_{t+1}\right)-Q\left(s_t, a_t\right) </math>δt=rt+1+γmaxat+1Q(st+1,at+1)−Q(st,at),而在策略 Sarsa 中, <math xmlns="http://www.w3.org/1998/Math/MathML"> δ t = r t + 1 + γ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) \delta_t=r_{t+1}+\gamma Q\left(s_{t+1}, a_{t+1}\right)-Q\left(s_t, a_t\right) </math>δt=rt+1+γQ(st+1,at+1)−Q(st,at)。然而,它只能处理离散的状态和动作。具有深度学习的 DQN 通过神经网络表征价值或策略,从而能够处理连续的状态或动作。它通过经验回放和冻结目标网络来稳定 Q 函数学习。DQN 的改进形式有 Double DQN、Dueling DQN 等。

演员-评论家方法 (Actor-Critic) 结合了基于策略和基于价值的方法的网络优点,其中演员网络源自基于策略的方法,而评论家网络源自基于价值的方法。演员-评论家的主体框架由两部分组成 : (1) 演员 : 基于状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t s_t </math>st 输出最佳行动 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at,通过学习最优策略来控制主体的行为;(2) 评论家 : 计算行动的 Q 值,从而实现对策略的评估。典型的方法包括Advantage actor-critic (A2C)、Asynchronous Advantage actor-critic (A3C)、Soft actor-critical (SAC)、Deep Deterministic Policy Gradient (DDPG) 等。特别是 SAC 引入了最大熵项,以提高主体对随机策略训练过程的探索性和稳定性;DDPG 将神经网络应用于高维视觉状态空间。它包括确定性策略梯度 (DPG) 和 DQN 方法,分别作为演员和评论家的角色,缓解了高偏差和高方差问题。


2.2.3 基于模型的方法

在不直接与环境交互的情况下,基于模型的强化学习方法主要利用学习或给定的世界模型来模拟转换,从而有效地优化目标策略。这与人类在脑海中的想象方式相似。我们在这里根据模型的使用方式介绍了一些常见的基于模型的强化学习算法,即用于轨迹采样的黑盒模型和用于梯度传播的白盒模型。

  • 使用可用的黑盒模型直接应用于策略学习的方法是在该模型中进行规划。这些方法包括蒙特卡罗 (MC)、带有轨迹采样的概率集成 (PETS)、蒙特卡罗树搜索 (MCTS) 等。MCTS 是 MC 的扩展采样方法,通过树搜索来确定每个时间步中高概率过渡到高价值状态的动作。它已成功应用于 AlphaGo 和 AlphaGo Zero,挑战职业围棋选手。另一方面,可以用模型生成模拟样本,加速策略学习或价值近似,这被称为 Dyna-风格的方法。在 Dyna 中,模型充当生成增强数据的经验生成器的角色。例如,模型集成信任区域策略优化 (ME-TRPO) 利用收集的数据学习一组动态模型,并使用这些模型生成虚拟体验。然后,它使用 TRPO 无模型算法,通过集成模型中的增强数据更新策略。基于模型的策略优化 (MBPO) 使用策略和学习模型对分支进行采样,并利用 SAC 算法使用增强数据进一步学习最优策略。

  • 利用白盒动力学模型,可以通过内部结构生成动力学的梯度,以便于策略学习。一些典型的方法包括引导策略搜索 (GPS)、学习控制的概率推理 (PILCO) 等。GPS利用路径优化技术指导训练过程,提高效率。它通过迭代线性二次调节器 (iLQR) 提取样本,用于初始化神经网络策略并进一步更新策略。PILCO 假设动态模型为高斯过程。通过学习这样的动态模型,PILCO使用近似推理来评估策略,并获得用于策略改进的策略梯度。在现实世界的应用中,离线强化学习通常很重要,其中代理必须仅从离线体验数据集中学习令人满意的策略,而无需与环境进行交互。离线强化学习面临一个关键挑战,即分布转移问题,即由于训练数据的行为策略与当前学习策略之间的差异。为了克服分布转移问题,提出了一种基于模型的离线策略优化 (MOPO) 算法。MOPO基于学习模型推导出策略价值下限,并试图通过动态的不确定性来惩罚奖励。

3.因果强化学习

由于因果关系和强化学习的直接联系,研究人员需要探索如何有效地将它们结合起来,以应用于政策学习或因果关系任务。这种结合被称为因果强化学习 (Causal Reinforcement Learning,CRL),其定义如下:

定义 18 (因果强化学习,CRL) : CRL是一组算法,旨在将因果知识嵌入到强化学习中,以实现更高效的模型学习、策略评估或策略优化。它被形式化为元组 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( M , G ) (\mathcal{M}, \mathcal{G}) </math>(M,G),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> M \mathcal{M} </math>M表示强化学习模型设置,例如 MDP、POMDP、MAB等,而 <math xmlns="http://www.w3.org/1998/Math/MathML"> G \mathcal{G} </math>G 表示关于环境或任务的因果信息,例如因果结构、因果表示或特征、潜在混淆因素等。

根据因果信息是经验给定的还是需要通过技术学习的,因果强化学习的方法可以大致分为两类:(i) 基于给定或假设的因果信息 (即因果先验知识) 的方法;以及 (ii) 基于必须通过技术学习来获取未知因果信息的方法。这些因果信息包括因果结构、因果表示或特征、潜在混淆因素等。

3.1 具有先验原因信息的 CRL

在这里,我们回顾了因果强化学习 (CRL) 方法,其中因果信息已知 (或给定先验),无论是明确地还是隐含地。一般而言,这些方法假设关于环境或任务的因果结构已经被专家事先确定,其中可能包括潜在因素的数量、潜在混淆因子的位置以及它们如何影响其他观测到的变量。对于潜在混淆因子的情况,大多数方法考虑通过适当的技术消除对策略的混淆偏差,同时使用强化学习方法学习最优策略。他们还可以在理论上证明策略实现策略评估的最坏情况下的界限。对于非混淆因果场景,他们利用先验的因果知识来提高样本效率,在策略学习中进行因果解释或推广。在现代强化学习过程中或之前,这些方法通过因果机制进行数据增强,通过因果信息缩小搜索空间,或偏好于具有因果影响的情况。

我们根据不同的模型设置总结了这些 CRL 方法,即 MDP、POMDP、Bandits、DTR 和 IL。


Models Algorithms
MDP IVOPE, IV-SGD and IV-Q-Learning, IVVI, CausalDyna, CTRL <math xmlns="http://www.w3.org/1998/Math/MathML"> g _g </math>g and CTRL <math xmlns="http://www.w3.org/1998/Math/MathML"> p _p </math>p, IAEM, MORMAXC, DOVI, FQE, COPE, off_policy_confounding, RIA, etc.
POMDP CF-GPS, Gumbel-Max SCMs, CFPT, Decoupled POMDPs, PCI, partial history weighting, COMA, influence MOA, CCM, Confounded-POMDP, etc.
Bandits Causal TS, DFPV, TS <math xmlns="http://www.w3.org/1998/Math/MathML"> R D C ∗ ^{RDC*} </math>RDC∗, SRIS, Causal Bandit, C-UCB and C-TS, UCB+IPSW, B-kl-UCB and B-TS, POMIS, Unc_CCB, OptZ, CRLogit, etc.
DTR OFU-DTR and PS-DTR, UC <math xmlns="http://www.w3.org/1998/Math/MathML"> c ^c </math>c-DTR, CAUSAL-TS*, IV-optimal and IV-improved DTRs, etc.
IL CI, exact linear transfer method, Sequential <math xmlns="http://www.w3.org/1998/Math/MathML"> π \pi </math>π-Backdoor, CTS, DoubIL and ResiduIL, MDCE-IRL and MACE-IRL, etc.

表 1. 具有已知因果信息的部分CRL算法


3.1.1 MDP

图 3 . 混杂 MDP 的因果图形说明示例,其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> { z h } \{z_h\} </math>{zh} 是工具变量序列, <math xmlns="http://www.w3.org/1998/Math/MathML"> { e h } \{e_h\} </math>{eh} 是未观察到的混杂因素序列, <math xmlns="http://www.w3.org/1998/Math/MathML"> x h x_h </math>xh 是第 <math xmlns="http://www.w3.org/1998/Math/MathML"> h h </math>h 个时间步长的当前状态变量。

图 4 . 离线和在线环境中混杂 MDP 的因果图形说明示例,其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> { w h } \{w_h\} </math>{wh} 是第 <math xmlns="http://www.w3.org/1998/Math/MathML"> h h </math>h 个时间步长的一系列未观察到的混杂因素。

以数字广告为例,Li 等人展示了策略中存在的强化偏差,并且在与环境的交互中可能会放大。为了在理论和实践上纠正偏差,他们在两时间尺度随机逼近框架下提出了一类基于工具变量的强化学习方法,其中包括随机梯度下降例程和 Q-learning 算法等。他们考虑了噪声可能与状态或动作相关的 MDP 环境,并基于此构建了工具变量。工具变量规定了状态相关决策。他们使用工具变量 (IVs) 学习策略的因果效应,基于给定的因果结构,从而去偏真实奖励并学习最优策略。Liao 等人侧重于中混淆因子 <math xmlns="http://www.w3.org/1998/Math/MathML"> u t u_t </math>ut 在时间 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 影响动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 和状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 的情况,如图 3 所示,构建了一个考虑工具变量和未观察到的混淆因子 (UCs) 的混淆 MDP 模型,即 CMDP-IV。他们通过获得条件矩限制,确定了在加性 UCs 假设下的混淆非线性转移动态。通过对这种条件矩限制进行原始-对偶形式化,最终提出了一种 工具变量-辅助的值迭代 (IVVI) 算法来学习离线强化学习中的最优策略。Zhang 等人研究了在存在未观察到的混淆因子的情况下估计 MDP 的问题。如果忽略这样的混淆因子,可能得到次优策略。因此,他们利用因果语言对问题进行形式化,并明确展示了两类策略 (实验策略和反事实策略)。在证明了反事实策略优于实验策略后,他们限制标准 MDP 方法在反事实策略空间中搜索,速度和收敛性比现有算法更强。Wang 等人研究了在离线数据集中构建信息增益以提高在线环境中的样本效率的问题。因此,他们提出了一种去混淆乐观值迭代算法 (DOVI)。如图 4 所示,在离线环境中,他们假设混淆因子部分被观察到,其混淆偏差可以通过背门准则进行校正;而在在线环境中,他们假设混淆因子未被观察到,其混淆偏差可以通过前门调整通过中间状态进行校正。最终,他们给出了他们提议的遗憾分析。

为了处理数据稀缺和机制异质性的问题,Lu 等人提出了一种高效的样本强化学习算法,利用结构因果模型 (SCMs) 来建模状态动态过程,并旨在生成适用于整体人群的通用策略以及适用于每个个体的个性化策略。特别是对于通用策略,基于 MDP 中的因果结构,他们假设状态变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 满足 SCM,
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> s t + 1 = f ( s t , a t , u t + 1 ) \begin{align} s_{t+1}=f\left(s_t, a_t, u_{t+1}\right) \end{align} </math>st+1=f(st,at,ut+1)

其中, <math xmlns="http://www.w3.org/1998/Math/MathML"> f f </math>f 是表示从原因到 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 的因果机制的函数, <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 是时间 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 的动作, <math xmlns="http://www.w3.org/1998/Math/MathML"> u t + 1 u_{t+1} </math>ut+1 代表 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 的噪声项。至于个体的个性化策略,他们假设状态变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 满足 SCM,
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> s t + 1 = f ( s t , a t , θ c , u t + 1 ) \begin{align} s_{t+1}=f\left(s_t, a_t, \theta_c, u_{t+1}\right) \end{align} </math>st+1=f(st,at,θc,ut+1)

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> f f </math>f 表示整体因果机制的集合, <math xmlns="http://www.w3.org/1998/Math/MathML"> θ c \theta_c </math>θc 捕捉可能在个体之间变化的变化因素。基于这两个状态转移过程,他们采用双向条件生成对抗网络框架来估计 <math xmlns="http://www.w3.org/1998/Math/MathML"> f , u t + 1 , θ c f,u_{t+1},\theta_c </math>f,ut+1,θc。通过进行反事实推理,缓解了数据稀缺问题。Zhu 等人采用了基于 SCMs 的反事实推理相同的思想来提高样本效率。他们将时间不变属性 (例如机器人操作中的物体质量) 建模为影响所有时间步状态变量的观察混淆因子,并提出了一种 Dyna-风格的因果强化学习算法。Feliciano 等人在追求目标的 MDP 模型的基础上,通过因果知识学习策略加速了探索和利用学习过程。假设存在可能不完整或部分正确的因果图,他们通过图查询缩小了动作的搜索空间,并开发了一种引导动作选择策略的方法。为了高效地执行强化学习任务,Lu 等人研究了因果MDP,其中干预、状态/奖励构成了一个三层因果图。状态或奖励 (结果) 位于顶层,结果的父节点位于中间层,而直接干预 (可操作) 位于底层。然后在给定这样的先验因果知识的情况下,他们提出了因果上置信界值迭代 (C-UCBVI) 算法和因果分解上置信界值 (CF-UCBVI) 算法,以避免动作或状态的维度灾难。最后,他们证明了验证的遗憾界限。

关于系统决策解释的加速,Madumal 等人采用因果模型推导出无模型强化学习代理行为的因果解释。具体而言,他们引入了一个行动影响模型,其中结构因果图中的变量不仅是状态,还包括行动。他们假设给定了一个具有因果方向的有向无环图 (DAG) 先验,并提出了一种学习这样的结构因果模型的方法,以生成对于 "为什么" 和 "为什么不" 问题的对比解释。最后,他们能够通过反事实推理解释新事件发生的原因。关于数据效率和泛化问题,Zhu 等人引入了状态之间行动效应的不变性,灵感来自于同一行动在不同状态转换中可能具有类似的效果。利用这种不变性,他们提出了一种基于动力学的方法,称为 IAEM (不变行动效应模型) 进行泛化。具体而言,他们首先将不变性描述为相邻状态表示之间的残差。然后,他们应用对比损失和自适应加权策略,更好地估计这些不变性表示。Guo 等人提出了一种关系干预 MBRL 方法,以泛化到动力学未知的环境,其中引入了一个在环境之间发生变化的潜在因子,用于描述转换动力学的变化。这样的因子是从历史转换片段中提取的。在给定因果图的情况下,他们引入干预预测模块和关系头部,以减少因子中的冗余信息。

在不确定性下,针对顺序决策策略的离线策略评估 (Off-Policy Evaluation, OPE) 是批处理强化学习中的一个基础且必要的问题。然而,该领域存在一些挑战,包括混淆的数据等。数据中的混淆因素会导致对新策略的评估变得无法识别。为了处理这个问题,Kallus 等人在具有混淆因素的无限时间序列强化学习设置中,探索了离线策略评估的部分识别方法。具体而言,他们首先假设未观测到的混淆因素的稳态分布,并针对数据进行敏感性建模。在他们满足的因果模型中,时间步 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 的混淆因素 <math xmlns="http://www.w3.org/1998/Math/MathML"> u t u_t </math>ut 会影响到动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at 和状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1。他们通过表征和优化部分识别集合来计算策略价值的最严格的界限。最终,他们证明了他们提出的近似方法在实践中是一致的,并能建立边界。在每个时间步 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t 上,观察到的动作 <math xmlns="http://www.w3.org/1998/Math/MathML"> a t a_t </math>at、状态 <math xmlns="http://www.w3.org/1998/Math/MathML"> s t + 1 s_{t+1} </math>st+1 和奖励 <math xmlns="http://www.w3.org/1998/Math/MathML"> r t r_t </math>rt 受到独立同分布的观测变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> u t u_t </math>ut 的混淆。Bennett 等人提出了一种离线策略评估方法,在无限时间序列设置中,估计存在未观测混淆因素的状态的稳态分布比率,并避免直接对奖励函数建模。他们证明了混淆模型的可识别性,并在一些假设下给出了统计一致性和误差界限。当遇到未观测混淆时,Namkoong 等人分析了顺序决策问题中离线策略评估方法的敏感性,并证明即使有少量混淆也可能引起严重的偏差。因此,他们提出了一个框架来量化未观测混淆的影响,并计算最坏情况下的界限,将混淆限制在单个时间步骤中,即混淆因素可能只直接影响其中一个决策,并进一步影响未来的奖励或动作。使用基于损失最小化的高效优化方法估计了预期累积奖励的界限,并具有统计一致性。之前的方法都采用了重要性采样方法来计算新策略的最坏情况下的界限。尽管 Kallus 等人构建了无限时间情况下的界限,Namkoong 等人推导了在单个时间步骤中具有限制混淆的最坏情况下的界限,但他们无法处理每个步骤中存在混淆的有限情况。为了克服这个挑战,Bruns 开发了一种基于模型的鲁棒 MDP 方法,以计算带有每个周期独立同分布混淆因素的有限时间界限,并结合敏感性分析。如果混淆因素持续可用,离线策略评估将变得更加具有挑战性。最近的 MDP 或 POMDP 模型中的离线策略评估方法没有考虑到在无限时间情况下估计目标策略值的置信区间的情况。Shi 等人特别关注了这种情况。他们基于混淆的 MDP 模型和一些观测到的即时变量,对数据生成过程进行建模,并将其命名为 CMDPWM (具有中介变量的混淆 MDP) 。通过中介变量,目标策略的价值被证明是可识别的。他们提供了一种稳健地估计离线策略值的算法。他们的方法帮助共享出行公司解决了评估可能包含潜在混淆因素的不同客户推荐方案的问题。如果在最小化贝尔曼误差时忽略混淆因素,可能会得到有偏差的 Q 函数估计。Chen 等人在 OPE 的语境中同时利用了工具变量 (IV) 和强化学习,提出了一类居于工具变量的方法来克服这些混淆因素,并实现对策略价值的识别。他们在带有一组 OPE 基准问题和各种工具变量比较的 MDP 环境中进行了实验。

参考资料 (References)

相关推荐
这个男人是小帅3 分钟前
【GAT】 代码详解 (1) 运行方法【pytorch】可运行版本
人工智能·pytorch·python·深度学习·分类
热爱生活的五柒10 分钟前
pytorch中数据和模型都要部署在cuda上面
人工智能·pytorch·深度学习
HyperAI超神经2 小时前
【TVM 教程】使用 Tensorize 来利用硬件内联函数
人工智能·深度学习·自然语言处理·tvm·计算机技术·编程开发·编译框架
埃菲尔铁塔_CV算法6 小时前
深度学习神经网络创新点方向
人工智能·深度学习·神经网络
秀儿还能再秀7 小时前
机器学习——简单线性回归、逻辑回归
笔记·python·学习·机器学习
学术搬运工7 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
图片转成excel表格8 小时前
WPS Office Excel 转 PDF 后图片丢失的解决方法
人工智能·科技·深度学习
李歘歘9 小时前
万字长文解读深度学习——多模态模型CLIP、BLIP、ViLT
人工智能·深度学习
Chatopera 研发团队9 小时前
机器学习 - 为 Jupyter Notebook 安装新的 Kernel
人工智能·机器学习·jupyter