【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应

Wang, J., Zhang, J., Jiang, H., Zhang, J., Wang, L., & Zhang, C. (2023, July). Offline meta reinforcement learning with in-distribution online adaptation. In International Conference on Machine Learning (pp. 36626-36669). PMLR.

2023 ICML

本文介绍了一种解决离线元强化学习中转移-奖励分布偏移问题的新方法IDAQ,通过理论分析和实验验证展示了其优越性能。

现有离线meta-RL方法在测试时要么需要专家提供的离线上下文(即完美演示),要么假设已知奖励函数,要么只能进行无奖励的在线探索。一旦只能像标准RL那样进行普通的在线交互,性能往往急剧下降。为什么离线元强化学习难以直接在线适应?

这篇ICML 2023论文首次系统性地回答了这个问题,并提出了一个看似简单却效果惊人的解决方案:IDAQ(In-Distribution online Adaptation with uncertainty Quantification)------通过"分布内在线适应"来应对一个被长期忽视的分布偏移问题。

什么是转移-奖励分布偏移问题?

想象一个机器人在三个不同迷宫中寻找钻石的场景:

  • 训练阶段:我们收集了每个迷宫的成功轨迹数据集(蓝色箭头)
  • 测试阶段:机器人遇到新迷宫,第一次尝试走了中间路径,但被石头挡住失败

这个失败的轨迹(红色箭头)在训练数据中从未出现过,因为训练数据只包含成功路径。当机器人用这个"异常"轨迹来推断当前任务时,就会产生错误判断------这就是转移-奖励分布偏移问题。

文章目录

    • 一、研究背景和基础知识
      • [1.1 标准 meta-RL](#1.1 标准 meta-RL)
      • [1.2 离线 meta-RL](#1.2 离线 meta-RL)
    • 二、过渡-奖励分布偏移
      • [2.1 分布偏移的形式化定义](#2.1 分布偏移的形式化定义)
      • [2.2 分布偏移存在性证明:一个构造性例子](#2.2 分布偏移存在性证明:一个构造性例子)
      • [2.3 分布偏移的后果:策略评估失效](#2.3 分布偏移的后果:策略评估失效)
    • 三、解决思路:分布内在线适应的理论基础
      • [3.1 核心思想:信任离线数据,过滤出分布经验](#3.1 核心思想:信任离线数据,过滤出分布经验)
      • [3.2 基于任务信念采样生成分布内经验](#3.2 基于任务信念采样生成分布内经验)
    • 四、IDAQ方法
      • [4.1 整体框架](#4.1 整体框架)
      • [4.2 不确定性量化方法](#4.2 不确定性量化方法)
        • [4.2.1 预测误差(Prediction Error)](#4.2.1 预测误差(Prediction Error))
        • [4.2.2 预测方差(Prediction Variance)](#4.2.2 预测方差(Prediction Variance))
        • [4.2.3 基于回报的不确定性(Return-based)------IDAQ的核心](#4.2.3 基于回报的不确定性(Return-based)——IDAQ的核心)
    • 五、实验
      • [5.1 实验设置](#5.1 实验设置)
      • [5.2 不确定性量化的比较](#5.2 不确定性量化的比较)
      • [5.3 主实验:50个Meta-World任务](#5.3 主实验:50个Meta-World任务)
      • [5.4 消融实验](#5.4 消融实验)
    • 六、总结

一、研究背景和基础知识

深度学习模型在开放世界的鲁棒性,很大程度上取决于其快速适应新环境的能力。人类可以从过往经验中提炼通用技能,并在新任务中通过少量尝试完成适配。元强化学习(meta-RL)正是试图模仿这种能力,让智能体在训练阶段接触多种任务,学会"如何快速学习"。然而,现实世界中的许多应用(如机器人操控、自动驾驶)存在两个关键挑战:

  1. 多任务效率:需要同时学习多个任务并快速适应新任务
  2. 在线交互成本:实际环境中收集大量交互数据既昂贵又不安全

离线元强化学习试图解决这些问题:使用预先收集的多任务数据集进行元训练,然后在测试时通过少量在线交互快速适应。但现有方法通常需要额外信息,如测试任务的专家上下文、已知奖励函数等,限制了实际应用。

1.1 标准 meta-RL

在标准meta-RL中,任务 κ i κ_i κi 服从分布 p ( κ ) p(κ) p(κ),每个任务是一个有限时域MDP:
κ i = ( S , A , R , H , P κ i , R κ i ) \kappa_i = (\mathcal{S}, \mathcal{A}, \mathcal{R}, H, P^{\kappa_i}, R^{\kappa_i}) κi=(S,A,R,H,Pκi,Rκi)

其中 P κ i ( s ′ ∣ s , a ) P^{\kappa_i}(s'|s,a) Pκi(s′∣s,a)是状态转移, R κ i ( r ∣ s , a ) R^{\kappa_i}(r|s,a) Rκi(r∣s,a)是奖励分布。智能体在训练阶段接触多个任务,目标是学会一个元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z),其中 z z z是任务隐变量(latent task embedding),使得在新任务上通过少量(如N个)交互 episode 就能快速适应。

从贝叶斯视角看,这等价于在一个贝叶斯自适应MDP(BAMDP) M + M^+ M+中学习:
M + = ( S + , A , R , H + , P 0 + , P + , R + ) M^+ = (\mathcal{S}^+, \mathcal{A}, \mathcal{R}, H^+, P_0^+, P^+, R^+) M+=(S+,A,R,H+,P0+,P+,R+)

其中超状态 (hyper-state) s t + = ( s t , b t κ ) s_t^+ = (s_t, b_t^\kappa) st+=(st,btκ)包含原始状态 s t s_t st和 任务信念 (task belief) b t κ = p ( κ ∣ c : t ) b_t^\kappa = p(\kappa|c_{:t}) btκ=p(κ∣c:t)------给定历史上下文 c : t c_{:t} c:t(过往状态、动作、奖励序列)后对任务后验分布的估计。元策略 π + ( a ∣ s + ) \pi^+(a|s^+) π+(a∣s+)实际上是在超状态空间上决策。

什么是 BAMDP:

想象你在玩一个盲盒游戏:每个盲盒是一个不同的MDP(任务)。你每走一步,不仅看到环境反馈,还更新对"当前盲盒是哪一款"的猜测。BAMDP就是把"猜测"(信念)作为状态的一部分,让决策过程再次马尔可夫化。初始信念是任务先验,每次交互后更新为后验。

1.2 离线 meta-RL

离线meta-RL中,训练数据由任务依赖的行为策略 [ μ ] = p ( μ ∣ κ ) [\mu] = p(\mu|\kappa) [μ]=p(μ∣κ)收集。这意味着:

  • 每个任务 κ i \kappa_i κi有自己的专家行为策略 μ i \mu_i μi
  • 离线数据集 D + \mathcal{D}^+ D+只包含执行 μ i \mu_i μi在任务 κ i \kappa_i κi上收集的轨迹
  • 核心约束:训练时完全不能与环境交互

现有方法的局限:

  • FOCALMACAW:测试时需要专家上下文(即任务的真实演示),这在现实中往往不可获得
  • BOReL:假设测试时奖励函数已知,或只能无奖励探索
  • SMAC:允许无奖励在线适应,但无法处理带奖励的在线交互

因此,关键的问题是,如何在无任何额外信息的情况下,仅通过少量带奖励的在线交互完成有效适应?

二、过渡-奖励分布偏移

2.1 分布偏移的形式化定义

过渡-奖励分布偏移 定义为,给定贝叶斯自适应MDP(BAMDP) M + M^+ M+,任务依赖行为策略 [ μ ] [\mu] [μ],以及批量约束的元策略 π + \pi^+ π+(只在数据集中出现的状态-动作对上行动),存在 ( s t + , a t ) (s_t^+, a_t) (st+,at)使得:

P M + , [ μ ] ( r t , s t + 1 ∣ s t + , a t ) ≠ P M + , π + ( r t , s t + 1 ∣ s t + , a t ) (1) \mathbb{P}{M^+,[\mu]}\left(r_t, s{t+1} \mid s_t^+, a_t\right) \neq \mathbb{P}{M^+,\pi^+}\left(r_t, s{t+1} \mid s_t^+, a_t\right) \quad \text{(1)} PM+,[μ](rt,st+1∣st+,at)=PM+,π+(rt,st+1∣st+,at)(1)

符号说明

  • P M + , [ μ ] \mathbb{P}_{M^+,[\mu]} PM+,[μ]:离线数据收集的经验分布(专家策略执行)
  • P M + , π + \mathbb{P}_{M^+,\pi^+} PM+,π+:在线适应时的真实分布(元策略执行)
  • 不等式说明:即使 ( s t + , a t ) (s_t^+, a_t) (st+,at)在数据集中存在,其导致的 ( r t , s t + 1 ) (r_t, s_{t+1}) (rt,st+1)分布也可能不同

在离线数据收集中,奖励和转移分布是条件于行为策略的 ( p ( μ ∣ κ ) p(\mu|\kappa) p(μ∣κ)),而在线适应时是条件于任务分布的 ( p ( κ ) p(\kappa) p(κ))。当专家策略与元策略不同时,分布必然偏移。

2.2 分布偏移存在性证明:一个构造性例子

定理1 (存在性):存在一个BAMDP M + M^+ M+和任务依赖行为策略 [ μ ] [\mu] [μ],使得任意批量约束元策略 π + \pi^+ π+都会产生过渡-奖励分布偏移

证明思路:构造一个简单例子:

  • v ≥ 3 v \geq 3 v≥3个任务,共享一个状态 s 0 s_0 s0
  • v v v个动作 a 1 , . . . , a v a_1, ..., a_v a1,...,av,每个任务 κ i \kappa_i κi只有动作 a i a_i ai能获得奖励1,其余动作奖励为0
  • 任务均匀分布: p ( κ i ) = 1 / v p(\kappa_i) = 1/v p(κi)=1/v
  • 每个任务的行为策略 μ i \mu_i μi会确定性地 选择 a i a_i ai(专家策略)

离线数据分布 :由于所有 μ i \mu_i μi都选 a i a_i ai且获得奖励1,数据集中所有轨迹的奖励都是1 ,即:
P M + , [ μ ] ( r = 1 ∣ s 0 + , a ~ ) = 1 , ∀ a ~ \mathbb{P}_{M^+,[\mu]}(r=1 \mid s_0^+, \tilde{a}) = 1, \quad \forall \tilde{a} PM+,[μ](r=1∣s0+,a~)=1,∀a~

在线适应分布 :当元策略 π + \pi^+ π+在测试时选择某个动作 a ~ \tilde{a} a~,由于任务从 p ( κ ) p(\kappa) p(κ)中随机抽取,只有 1 / v 1/v 1/v概率选中对应任务,因此:
P M + , π + ( r = 1 ∣ s 0 + , a ~ ) = 1 v \mathbb{P}_{M^+,\pi^+}(r=1 \mid s_0^+, \tilde{a}) = \frac{1}{v} PM+,π+(r=1∣s0+,a~)=v1

显然, 1 ≠ 1 / v 1 \neq 1/v 1=1/v,分布偏移存在 。这个例子清晰地展示了:即使状态-动作对在数据集中频繁出现,其结果分布在在线阶段也会截然不同。

2.3 分布偏移的后果:策略评估失效

命题1:分布偏移导致两个严重后果:

  1. 访问出分布超状态:智能体会遇到训练时从未见过的信念状态(如"排除任务j"的信念,因为奖励0从未出现)
  2. 策略评估不可靠 :离线评估 J D + ( π + ) \mathcal{J}{\mathcal{D}^+}(\pi^+) JD+(π+)与在线性能 J M + ( π + ) \mathcal{J}{M^+}(\pi^+) JM+(π+)的误差至少为 ( H + − 1 ) / 2 (H^+-1)/2 (H+−1)/2

推导过程 :继续用上述例子,离线评估时所有轨迹奖励为1,故 J D + ( π + ) = H + = v \mathcal{J}{\mathcal{D}^+}(\pi^+) = H^+ = v JD+(π+)=H+=v(总时间步)。但最优在线策略需要探索:最坏情况下要尝试 v − 1 v-1 v−1个失败动作才能找到正确动作,其期望回报为:
J M + ( π + , ∗ ) = ∑ k = 0 v − 1 v − k v = v + 1 2 \mathcal{J}
{M^+}(\pi^{+,*}) = \sum_{k=0}^{v-1} \frac{v-k}{v} = \frac{v+1}{2} JM+(π+,∗)=k=0∑v−1vv−k=2v+1

因此误差:
∣ J D + − J M + ∣ ≥ v − v + 1 2 = v − 1 2 = H + − 1 2 \left|\mathcal{J}{\mathcal{D}^+} - \mathcal{J}{M^+}\right| \geq v - \frac{v+1}{2} = \frac{v-1}{2} = \frac{H^+-1}{2} ∣JD+−JM+∣≥v−2v+1=2v−1=2H+−1

这意味着:离线训练的策略估值完全无法预测在线表现,任何依赖离线评估的自适应方法都会失效。

三、解决思路:分布内在线适应的理论基础

3.1 核心思想:信任离线数据,过滤出分布经验

既然分布外经验会误导任务推断,一个自然的想法是:在少量在线交互中,只利用与离线数据分布一致的经验来更新信念。论文通过**转换的BAMDP(Transformed BAMDP)**理论形式化这一思路。

定义2 (转换的BAMDP):将行为策略 [ μ ] [\mu] [μ]的分布纳入信念空间,定义超状态 s ˉ t + = ( s t , b t κ , μ ) \bar{s}t^+ = (s_t, b_t^{\kappa,\mu}) sˉt+=(st,btκ,μ),其中信念 b t κ , μ = p ( κ , μ ∣ c : t ) b_t^{\kappa,\mu} = p(\kappa, \mu \mid c{:t}) btκ,μ=p(κ,μ∣c:t)同时编码任务和行为策略的不确定性。

定理2 (分布内适应的保证):在转换的BAMDP M ˉ + \bar{M}^+ Mˉ+中:

  1. 信念更新可行性 :只有分布内经验才能支持可行的贝叶斯信念更新(出分布事件的概率被信念赋予零)
  2. 分布匹配 :对于任意批量约束策略 π ˉ + \bar{\pi}^+ πˉ+,离线分布 P M ˉ + , [ μ ] \mathbb{P}{\bar{M}^+,[\mu]} PMˉ+,[μ]与在线分布 P M ˉ + , π ˉ + \mathbb{P}{\bar{M}^+,\bar{\pi}^+} PMˉ+,πˉ+一致
  3. 评估一致性 :当离线数据集增大时,离线评估 J D + ( π ˉ + ) \mathcal{J}{\mathcal{D}^+}(\bar{\pi}^+) JD+(πˉ+)与在线评估 J M ˉ + ( π ˉ + ) \mathcal{J}{\bar{M}^+}(\bar{\pi}^+) JMˉ+(πˉ+)渐近一致

直观理解:将行为策略视为"隐藏变量"后,智能体意识到"奖励0"的出现意味着当前任务假设与数据收集策略不一致,从而拒绝这次经验,保持信念在数据支持的范围内。

3.2 基于任务信念采样生成分布内经验

定理3 (汤普森采样的保证):在转换的BAMDP中,使用汤普森采样 的元策略 π ˉ + , T \bar{\pi}^{+,T} πˉ+,T能以高概率生成分布内在线适应episode。

机制 :汤普森采样在每轮迭代中从当前信念 b t κ , μ b_t^{\kappa,\mu} btκ,μ采样一个 任务假设 ( κ i , μ i ) (\kappa_i, \mu_i) (κi,μi),然后执行对应于该假设的批量约束策略。由于 μ i \mu_i μi是任务 κ i \kappa_i κi的真实行为策略,只要当前测试任务接近 κ i \kappa_i κi,产生的轨迹就在分布内

回到我们的例子,测试任务3时, π ˉ + , T \bar{\pi}^{+,T} πˉ+,T可能先采样假设 ( κ 1 , μ 1 ) (\kappa_1, \mu_1) (κ1,μ1),执行动作 a 1 a_1 a1(期望奖励1),但实际奖励为0,信念更新排除 κ 1 \kappa_1 κ1。接着采样 ( κ 2 , μ 2 ) (\kappa_2, \mu_2) (κ2,μ2),执行 a 2 a_2 a2仍失败。直到采样到 ( κ 3 , μ 3 ) (\kappa_3, \mu_3) (κ3,μ3),执行 a 3 a_3 a3获得奖励1,这条成功轨迹完全在数据分布内 (因为 μ 3 \mu_3 μ3在任务3中本就产生奖励1)。信念更新后,智能体锁定任务3。

四、IDAQ方法

4.1 整体框架

输入 :离线数据集 D + \mathcal{D}^+ D+,测试任务,元训练算法(如FOCAL),不确定性量化函数 Q ( τ ) \mathbb{Q}(\tau) Q(τ)

阶段1:离线元训练

用FOCAL等算法训练上下文编码器 q ( z ∣ c ) q(z|c) q(z∣c) 和元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z),其中 z z z是任务隐变量。

  • 上下文编码器 q ( z ∣ c ) q(z|c) q(z∣c):根据历史上下文推断任务信念
  • 元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z):基于状态和任务假设选择动作

阶段2:在线适应

  1. 参考阶段(Reference Stage) :目标:估计阈值 δ \delta δ

    1. 用先验 q ( z ) q(z) q(z) 收集 n r n_r nr 条轨迹
    2. 计算其不确定性 { Q ( τ i ) } \{\mathbb{Q}(\tau_i)\} {Q(τi)}
    3. k%分位数 作为阈值 δ \delta δ
    4. 并筛选分布内上下文: c i n = { τ i ∣ Q ( τ i ) ≤ δ } c_{in} = \{\tau_i | \mathbb{Q}(\tau_i) \leq \delta\} cin={τi∣Q(τi)≤δ}
  2. 迭代更新阶段(Iterative Updating Stage) :在 n i n_i ni 轮迭代中:

    • 用当前信念 q ( z ∣ c i n ) q(z|c_{in}) q(z∣cin) 采样任务 z z z
    • 执行策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z) 收集轨迹 τ j \tau_j τj
    • 若 Q ( τ j ) ≤ δ \mathbb{Q}(\tau_j) \leq \delta Q(τj)≤δ (在分布内),则更新 c i n ← c i n ∪ { τ j } c_{in} \leftarrow c_{in} \cup \{\tau_j\} cin←cin∪{τj}并更新信念 q ( z ∣ c i n ) q(z|c_{in}) q(z∣cin)

Remark :阈值 δ \delta δ将轨迹分为可信的任务推断经验 (低不确定性)和噪声(高不确定性)。

4.2 不确定性量化方法

论文比较了三种不确定性量化方法:

4.2.1 预测误差(Prediction Error)

在离线数据上学习一个奖励-动态模型集合 { r ϕ i , p ψ i } i = 1 L \{r_{\phi_i}, p_{\psi_i}\}{i=1}^L {rϕi,pψi}i=1L:
Q P E ( τ i , z ) = 1 H L ∑ t = 0 H − 1 ∑ i = 1 L ( ∣ r t − r ϕ i ( s t , a t , z ) ∣ + ∥ s t + 1 − p ψ i ( s t , a t , z ) ∥ 2 ) (3) \mathbb{Q}
{PE}(\tau_i, z) = \frac{1}{HL} \sum_{t=0}^{H-1} \sum_{i=1}^L \left( |r_t - r_{\phi_i}(s_t, a_t, z)| + \|s_{t+1} - p_{\psi_i}(s_t, a_t, z)\|_2 \right) \quad \text{(3)} QPE(τi,z)=HL1t=0∑H−1i=1∑L(∣rt−rϕi(st,at,z)∣+∥st+1−pψi(st,at,z)∥2)(3)

原理:基于集成模型的预测误差。如果模型在某个轨迹上预测误差大,说明该轨迹在训练数据中不常见。

问题:在专家数据集中,所有轨迹奖励都很高,预测误差可能都很小,无法区分"奖励1"和"奖励0"的轨迹。低误差区域会覆盖高回报和低回报轨迹,无法设定有效阈值。

4.2.2 预测方差(Prediction Variance)

Q P V ( τ i , z ) = 1 H ∑ t = 0 H − 1 max ⁡ i , j ( ∣ r ϕ i ( s t , a t , z ) − r ϕ j ( s t , a t , z ) ∣ + ∥ p ψ i ( s t , a t , z ) − p ψ j ( s t , a t , z ) ∥ 2 ) (4) \mathbb{Q}{PV}(\tau_i, z) = \frac{1}{H} \sum{t=0}^{H-1} \max_{i,j} \left( |r_{\phi_i}(s_t, a_t, z) - r_{\phi_j}(s_t, a_t, z)| + \|p_{\psi_i}(s_t, a_t, z) - p_{\psi_j}(s_t, a_t, z)\|_2 \right) \quad \text{(4)} QPV(τi,z)=H1t=0∑H−1i,jmax(∣rϕi(st,at,z)−rϕj(st,at,z)∣+∥pψi(st,at,z)−pψj(st,at,z)∥2)(4)

原理:测量集成模型之间的分歧。模型对熟悉的数据预测一致,对陌生数据预测分歧大。

问题 :在专家或中等质量数据集中,模型可能学到确定性的映射(如"所有动作都预测奖励1"),此时方差接近0,但错误预测误差很高。方差无法捕捉这种"高误差-低方差"的出分布情况。

4.2.3 基于回报的不确定性(Return-based)------IDAQ的核心

Q R E ( { τ i } i = 1 n e ) = − 1 n e ∑ i = 1 n e ∑ t = 0 H − 1 r t i (5) \mathbb{Q}{RE}\left(\{\tau_i\}{i=1}^{n_e}\right) = -\frac{1}{n_e} \sum_{i=1}^{n_e} \sum_{t=0}^{H-1} r_t^i \quad \text{(5)} QRE({τi}i=1ne)=−ne1i=1∑net=0∑H−1rti(5)

原理 :离线RL的偏差导致出分布轨迹通常有较低回报 (因为模型未优化这些状态)。其逆否命题是:高回报轨迹更可能在分布内

实现 :直接取多条轨迹的平均累积奖励的负值作为不确定性(回报越高,不确定性越低)。

理论保证 :在假设1 (有效离线训练下,准确任务假设的回报高于错误假设)下,结合定理3,可以证明 Q R E \mathbb{Q}_{RE} QRE 能筛选出分布内episode(见附录A.5)。

优势:无需学习额外模型,对超参数不敏感,且在专家/中等数据集上效果卓越。

五、实验

5.1 实验设置

基准环境

  • Meta-World ML1:50个机器人操作任务
  • Point-Robot和Cheetah-Vel:经典元RL任务

对比方法

  • FOCAL、MACAW:离线元RL方法
  • BOReL:需要已知奖励函数的基线
  • 各方法的在线适应变体

5.2 不确定性量化的比较

在8个代表性任务上的测试显示,基于回报的量化在大多数任务上表现最佳:

  • IDAQ+Return:平均得分0.55-0.99,远超其他
  • IDAQ+Prediction Error/Variance:在复杂任务上失败(如Sweep-Med仅0.13/0.03 vs 0.59)
  • FOCAL(无筛选):直接使用所有在线经验,因分布偏移而失败(0.07-0.34)

为何其他方法失败:在中等或专家数据集中,数据覆盖度低但质量高。模型可能过拟合到"奖励≈1"的确定性模式。当在线产生奖励0时:

  • 预测误差 :可能因模型容量不足而低估误差(图8中低误差区域覆盖所有回报)
  • 预测方差 :因预测确定性而方差≈0,无法区分(图9中阈值失效)

5.3 主实验:50个Meta-World任务

在ML1基准(50个机器人臂操作任务)上,IDAQ展现出压倒性优势:

  • 在线适应设置 :IDAQ平均得分0.73,显著高于FOCAL(0.53)、MACAW(0.18)和BOReL(0.04)
  • 与离线适应对比 :IDAQ达到与FOCAL+专家上下文(0.67)和MACAW+专家上下文(0.68)相当甚至更优的性能,证明专家上下文并非必要

IDAQ不仅优于所有在线适应基线,甚至达到或超过了使用专家上下文的离线适应方法,表明专家上下文在测试环境中可能不是必需的。

5.4 消融实验

  • 参考阶段长度 : n r = 10 n_r=10 nr=10(总20轮)时最优,过短无法可靠估计阈值,过长减少迭代次数
  • 数据集质量:在中等质量数据,IDAQ+Return依然有效(Sweep-Med: 0.59 vs FOCAL: 0.38),而其他量化方法崩溃
  • 超参数鲁棒性 :模型集合大小 L L L在2-12间变化时,IDAQ+Return稳定优于其他量化方法

六、总结

本文通过形式化离线元RL中的转移-奖励分布偏移问题,提出了理论上有保证的IDAQ框架。实验证明,IDAQ在复杂任务上实现了最先进的性能,且不需要专家上下文等额外信息。这项工作为离线元RL的实际应用提供了重要基础。

局限:基于回报的量化可能忽略低回报的分布内轨迹,需要更多探索;在随机性强的数据集(如随机策略收集)上假设可能不成立

与现有分布偏移研究的区别

  • 单任务离线RL:关注状态-动作分布偏移(state-action shift),即策略访问的状态与数据集不匹配。解决方法包括策略约束、悲观值估计等。
  • SMAC(Pong et al., 2022) :在meta-RL中研究策略分布偏移,即任务隐变量 z z z的分布偏移。
  • 本文工作 :首次识别过渡-奖励分布偏移 ,这是任务依赖行为策略的特有产物,独立于状态-动作分布 。即使通过策略约束让访问的状态在数据集中,其结果分布仍可能偏移。
相关推荐
秋深枫叶红1 小时前
嵌入式第二十三篇——数据结构基本概念
linux·数据结构·学习·算法
Cleaner1 小时前
大模型的手和脚:从提示工程到 MCP
人工智能·llm·mcp
点亮一颗LED(从入门到放弃)1 小时前
C语言学习笔记(1)——输入输出,数据类型
c语言·笔记·学习
极客BIM工作室1 小时前
Sora模型双路径压缩网络详解
人工智能·深度学习
小明_GLC1 小时前
DeepSeek-Math-V2论文阅读
论文阅读
Zsy_0510031 小时前
【数据结构】二叉树介绍及C语言代码实现
c语言·数据结构·算法
Ayanami_Reii1 小时前
基础数学算法-移棋子游戏
数学·算法·游戏·博弈论·sg函数
谁刺我心1 小时前
蓝桥杯C++常用STL
c++·算法·蓝桥杯
土拨鼠烧电路1 小时前
RPA悖论迷思:从解放的利器到运维的枷锁?
大数据·运维·笔记·rpa