【论文阅读笔记】IDAQ：离线元强化学习中的分布内在线适应

Wang, J., Zhang, J., Jiang, H., Zhang, J., Wang, L., & Zhang, C. (2023, July). Offline meta reinforcement learning with in-distribution online adaptation. In International Conference on Machine Learning (pp. 36626-36669). PMLR.

2023 ICML

本文介绍了一种解决离线元强化学习中转移-奖励分布偏移问题的新方法IDAQ，通过理论分析和实验验证展示了其优越性能。

现有离线meta-RL方法在测试时要么需要专家提供的离线上下文（即完美演示），要么假设已知奖励函数，要么只能进行无奖励的在线探索。一旦只能像标准RL那样进行普通的在线交互，性能往往急剧下降。为什么离线元强化学习难以直接在线适应？

这篇ICML 2023论文首次系统性地回答了这个问题，并提出了一个看似简单却效果惊人的解决方案：IDAQ（In-Distribution online Adaptation with uncertainty Quantification）------通过"分布内在线适应"来应对一个被长期忽视的分布偏移问题。

什么是转移-奖励分布偏移问题？

想象一个机器人在三个不同迷宫中寻找钻石的场景：

训练阶段：我们收集了每个迷宫的成功轨迹数据集（蓝色箭头）

测试阶段：机器人遇到新迷宫，第一次尝试走了中间路径，但被石头挡住失败

这个失败的轨迹（红色箭头）在训练数据中从未出现过，因为训练数据只包含成功路径。当机器人用这个"异常"轨迹来推断当前任务时，就会产生错误判断------这就是转移-奖励分布偏移问题。

文章目录

- 一、研究背景和基础知识
- - [1.1 标准 meta-RL](#1.1 标准 meta-RL)
  - [1.2 离线 meta-RL](#1.2 离线 meta-RL)
- 二、过渡-奖励分布偏移
- - [2.1 分布偏移的形式化定义](#2.1 分布偏移的形式化定义)
  - [2.2 分布偏移存在性证明：一个构造性例子](#2.2 分布偏移存在性证明：一个构造性例子)
  - [2.3 分布偏移的后果：策略评估失效](#2.3 分布偏移的后果：策略评估失效)
- 三、解决思路：分布内在线适应的理论基础
- - [3.1 核心思想：信任离线数据，过滤出分布经验](#3.1 核心思想：信任离线数据，过滤出分布经验)
  - [3.2 基于任务信念采样生成分布内经验](#3.2 基于任务信念采样生成分布内经验)
- 四、IDAQ方法
- - [4.1 整体框架](#4.1 整体框架)
  - [4.2 不确定性量化方法](#4.2 不确定性量化方法)
  - - [4.2.1 预测误差（Prediction Error）](#4.2.1 预测误差（Prediction Error）)
    - [4.2.2 预测方差（Prediction Variance）](#4.2.2 预测方差（Prediction Variance）)
    - [4.2.3 基于回报的不确定性（Return-based）------IDAQ的核心](#4.2.3 基于回报的不确定性（Return-based）——IDAQ的核心)
- 五、实验
- - [5.1 实验设置](#5.1 实验设置)
  - [5.2 不确定性量化的比较](#5.2 不确定性量化的比较)
  - [5.3 主实验：50个Meta-World任务](#5.3 主实验：50个Meta-World任务)
  - [5.4 消融实验](#5.4 消融实验)
- 六、总结

一、研究背景和基础知识

深度学习模型在开放世界的鲁棒性，很大程度上取决于其快速适应新环境的能力。人类可以从过往经验中提炼通用技能，并在新任务中通过少量尝试完成适配。元强化学习（meta-RL）正是试图模仿这种能力，让智能体在训练阶段接触多种任务，学会"如何快速学习"。然而，现实世界中的许多应用（如机器人操控、自动驾驶）存在两个关键挑战：

多任务效率：需要同时学习多个任务并快速适应新任务
在线交互成本：实际环境中收集大量交互数据既昂贵又不安全

离线元强化学习试图解决这些问题：使用预先收集的多任务数据集进行元训练，然后在测试时通过少量在线交互快速适应。但现有方法通常需要额外信息，如测试任务的专家上下文、已知奖励函数等，限制了实际应用。

1.1 标准 meta-RL

在标准meta-RL中，任务 κ i κ_i κi 服从分布 p ( κ ) p(κ) p(κ)，每个任务是一个有限时域MDP：
κ i = ( S , A , R , H , P κ i , R κ i ) \kappa_i = (\mathcal{S}, \mathcal{A}, \mathcal{R}, H, P^{\kappa_i}, R^{\kappa_i}) κi=(S,A,R,H,Pκi,Rκi)

其中 P κ i ( s ′ ∣ s , a ) P^{\kappa_i}(s'|s,a) Pκi(s′∣s,a)是状态转移， R κ i ( r ∣ s , a ) R^{\kappa_i}(r|s,a) Rκi(r∣s,a)是奖励分布。智能体在训练阶段接触多个任务，目标是学会一个元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)，其中 z z z是任务隐变量（latent task embedding），使得在新任务上通过少量（如N个）交互 episode 就能快速适应。

从贝叶斯视角看，这等价于在一个贝叶斯自适应MDP（BAMDP） M + M^+ M+中学习：
M + = ( S + , A , R , H + , P 0 + , P + , R + ) M^+ = (\mathcal{S}^+, \mathcal{A}, \mathcal{R}, H^+, P_0^+, P^+, R^+) M+=(S+,A,R,H+,P0+,P+,R+)

其中超状态 （hyper-state） s t + = ( s t , b t κ ) s_t^+ = (s_t, b_t^\kappa) st+=(st,btκ)包含原始状态 s t s_t st和 任务信念 （task belief） b t κ = p ( κ ∣ c : t ) b_t^\kappa = p(\kappa|c_{:t}) btκ=p(κ∣c:t)------给定历史上下文 c : t c_{:t} c:t（过往状态、动作、奖励序列）后对任务后验分布的估计。元策略 π + ( a ∣ s + ) \pi^+(a|s^+) π+(a∣s+)实际上是在超状态空间上决策。

什么是 BAMDP：

想象你在玩一个盲盒游戏：每个盲盒是一个不同的MDP（任务）。你每走一步，不仅看到环境反馈，还更新对"当前盲盒是哪一款"的猜测。BAMDP就是把"猜测"（信念）作为状态的一部分，让决策过程再次马尔可夫化。初始信念是任务先验，每次交互后更新为后验。

1.2 离线 meta-RL

离线meta-RL中，训练数据由任务依赖的行为策略 [ μ ] = p ( μ ∣ κ ) [\mu] = p(\mu|\kappa) [μ]=p(μ∣κ)收集。这意味着：

每个任务 κ i \kappa_i κi有自己的专家行为策略 μ i \mu_i μi
离线数据集 D + \mathcal{D}^+ D+只包含执行 μ i \mu_i μi在任务 κ i \kappa_i κi上收集的轨迹
核心约束：训练时完全不能与环境交互

现有方法的局限：

FOCAL 和MACAW：测试时需要专家上下文（即任务的真实演示），这在现实中往往不可获得
BOReL：假设测试时奖励函数已知，或只能无奖励探索
SMAC：允许无奖励在线适应，但无法处理带奖励的在线交互

因此，关键的问题是，如何在无任何额外信息的情况下，仅通过少量带奖励的在线交互完成有效适应？

二、过渡-奖励分布偏移

2.1 分布偏移的形式化定义

过渡-奖励分布偏移 定义为，给定贝叶斯自适应MDP（BAMDP） M + M^+ M+，任务依赖行为策略 [ μ ] [\mu] [μ]，以及批量约束的元策略 π + \pi^+ π+（只在数据集中出现的状态-动作对上行动），存在 ( s t + , a t ) (s_t^+, a_t) (st+,at)使得：

P M + , [ μ ] ( r t , s t + 1 ∣ s t + , a t ) ≠ P M + , π + ( r t , s t + 1 ∣ s t + , a t ) (1) \mathbb{P}{M^+,[\mu]}\left(r_t, s{t+1} \mid s_t^+, a_t\right) \neq \mathbb{P}{M^+,\pi^+}\left(r_t, s{t+1} \mid s_t^+, a_t\right) \quad \text{(1)} PM+,[μ](rt,st+1∣st+,at)=PM+,π+(rt,st+1∣st+,at)(1)

符号说明：

P M + , [ μ ] \mathbb{P}_{M^+,[\mu]} PM+,[μ]：离线数据收集的经验分布（专家策略执行）
P M + , π + \mathbb{P}_{M^+,\pi^+} PM+,π+：在线适应时的真实分布（元策略执行）
不等式说明：即使 ( s t + , a t ) (s_t^+, a_t) (st+,at)在数据集中存在，其导致的 ( r t , s t + 1 ) (r_t, s_{t+1}) (rt,st+1)分布也可能不同

在离线数据收集中，奖励和转移分布是条件于行为策略的 （ p ( μ ∣ κ ) p(\mu|\kappa) p(μ∣κ)），而在线适应时是条件于任务分布的 （ p ( κ ) p(\kappa) p(κ)）。当专家策略与元策略不同时，分布必然偏移。

2.2 分布偏移存在性证明：一个构造性例子

定理1 （存在性）：存在一个BAMDP M + M^+ M+和任务依赖行为策略 [ μ ] [\mu] [μ]，使得任意批量约束元策略 π + \pi^+ π+都会产生过渡-奖励分布偏移。

证明思路：构造一个简单例子：

v ≥ 3 v \geq 3 v≥3个任务，共享一个状态 s 0 s_0 s0
v v v个动作 a 1 , . . . , a v a_1, ..., a_v a1,...,av，每个任务 κ i \kappa_i κi只有动作 a i a_i ai能获得奖励1，其余动作奖励为0
任务均匀分布： p ( κ i ) = 1 / v p(\kappa_i) = 1/v p(κi)=1/v
每个任务的行为策略 μ i \mu_i μi会确定性地 选择 a i a_i ai（专家策略）

离线数据分布 ：由于所有 μ i \mu_i μi都选 a i a_i ai且获得奖励1，数据集中所有轨迹的奖励都是1 ，即：
P M + , [ μ ] ( r = 1 ∣ s 0 + , a ~ ) = 1 , ∀ a ~ \mathbb{P}_{M^+,[\mu]}(r=1 \mid s_0^+, \tilde{a}) = 1, \quad \forall \tilde{a} PM+,[μ](r=1∣s0+,a~)=1,∀a~

在线适应分布 ：当元策略 π + \pi^+ π+在测试时选择某个动作 a ~ \tilde{a} a~，由于任务从 p ( κ ) p(\kappa) p(κ)中随机抽取，只有 1 / v 1/v 1/v概率选中对应任务，因此：
P M + , π + ( r = 1 ∣ s 0 + , a ~ ) = 1 v \mathbb{P}_{M^+,\pi^+}(r=1 \mid s_0^+, \tilde{a}) = \frac{1}{v} PM+,π+(r=1∣s0+,a~)=v1

显然， 1 ≠ 1 / v 1 \neq 1/v 1=1/v，分布偏移存在 。这个例子清晰地展示了：即使状态-动作对在数据集中频繁出现，其结果分布在在线阶段也会截然不同。

2.3 分布偏移的后果：策略评估失效

命题1：分布偏移导致两个严重后果：

访问出分布超状态：智能体会遇到训练时从未见过的信念状态（如"排除任务j"的信念，因为奖励0从未出现）
策略评估不可靠 ：离线评估 J D + ( π + ) \mathcal{J}{\mathcal{D}^+}(\pi^+) JD+(π+)与在线性能 J M + ( π + ) \mathcal{J}{M^+}(\pi^+) JM+(π+)的误差至少为 ( H + − 1 ) / 2 (H^+-1)/2 (H+−1)/2

推导过程 ：继续用上述例子，离线评估时所有轨迹奖励为1，故 J D + ( π + ) = H + = v \mathcal{J}{\mathcal{D}^+}(\pi^+) = H^+ = v JD+(π+)=H+=v（总时间步）。但最优在线策略需要探索：最坏情况下要尝试 v − 1 v-1 v−1个失败动作才能找到正确动作，其期望回报为：
J M + ( π + , ∗ ) = ∑ k = 0 v − 1 v − k v = v + 1 2 \mathcal{J}{M^+}(\pi^{+,*}) = \sum_{k=0}^{v-1} \frac{v-k}{v} = \frac{v+1}{2} JM+(π+,∗)=k=0∑v−1vv−k=2v+1

因此误差：
∣ J D + − J M + ∣ ≥ v − v + 1 2 = v − 1 2 = H + − 1 2 \left|\mathcal{J}{\mathcal{D}^+} - \mathcal{J}{M^+}\right| \geq v - \frac{v+1}{2} = \frac{v-1}{2} = \frac{H^+-1}{2} ∣JD+−JM+∣≥v−2v+1=2v−1=2H+−1

这意味着：离线训练的策略估值完全无法预测在线表现，任何依赖离线评估的自适应方法都会失效。

三、解决思路：分布内在线适应的理论基础

3.1 核心思想：信任离线数据，过滤出分布经验

既然分布外经验会误导任务推断，一个自然的想法是：在少量在线交互中，只利用与离线数据分布一致的经验来更新信念。论文通过**转换的BAMDP（Transformed BAMDP）**理论形式化这一思路。

定义2 （转换的BAMDP）：将行为策略 [ μ ] [\mu] [μ]的分布纳入信念空间，定义超状态 s ˉ t + = ( s t , b t κ , μ ) \bar{s}t^+ = (s_t, b_t^{\kappa,\mu}) sˉt+=(st,btκ,μ)，其中信念 b t κ , μ = p ( κ , μ ∣ c : t ) b_t^{\kappa,\mu} = p(\kappa, \mu \mid c{:t}) btκ,μ=p(κ,μ∣c:t)同时编码任务和行为策略的不确定性。

定理2 （分布内适应的保证）：在转换的BAMDP M ˉ + \bar{M}^+ Mˉ+中：

信念更新可行性 ：只有分布内经验才能支持可行的贝叶斯信念更新（出分布事件的概率被信念赋予零）
分布匹配 ：对于任意批量约束策略 π ˉ + \bar{\pi}^+ πˉ+，离线分布 P M ˉ + , [ μ ] \mathbb{P}{\bar{M}^+,[\mu]} PMˉ+,[μ]与在线分布 P M ˉ + , π ˉ + \mathbb{P}{\bar{M}^+,\bar{\pi}^+} PMˉ+,πˉ+一致
评估一致性 ：当离线数据集增大时，离线评估 J D + ( π ˉ + ) \mathcal{J}{\mathcal{D}^+}(\bar{\pi}^+) JD+(πˉ+)与在线评估 J M ˉ + ( π ˉ + ) \mathcal{J}{\bar{M}^+}(\bar{\pi}^+) JMˉ+(πˉ+)渐近一致

直观理解：将行为策略视为"隐藏变量"后，智能体意识到"奖励0"的出现意味着当前任务假设与数据收集策略不一致，从而拒绝这次经验，保持信念在数据支持的范围内。

3.2 基于任务信念采样生成分布内经验

定理3 （汤普森采样的保证）：在转换的BAMDP中，使用汤普森采样 的元策略 π ˉ + , T \bar{\pi}^{+,T} πˉ+,T能以高概率生成分布内在线适应episode。

机制：汤普森采样在每轮迭代中从当前信念 b t κ , μ b_t^{\kappa,\mu} btκ,μ采样一个 任务假设 ( κ i , μ i ) (\kappa_i, \mu_i) (κi,μi)，然后执行对应于该假设的批量约束策略。由于 μ i \mu_i μi是任务 κ i \kappa_i κi的真实行为策略，只要当前测试任务接近 κ i \kappa_i κi，产生的轨迹就在分布内。

回到我们的例子，测试任务3时， π ˉ + , T \bar{\pi}^{+,T} πˉ+,T可能先采样假设 ( κ 1 , μ 1 ) (\kappa_1, \mu_1) (κ1,μ1)，执行动作 a 1 a_1 a1（期望奖励1），但实际奖励为0，信念更新排除 κ 1 \kappa_1 κ1。接着采样 ( κ 2 , μ 2 ) (\kappa_2, \mu_2) (κ2,μ2)，执行 a 2 a_2 a2仍失败。直到采样到 ( κ 3 , μ 3 ) (\kappa_3, \mu_3) (κ3,μ3)，执行 a 3 a_3 a3获得奖励1，这条成功轨迹完全在数据分布内 （因为 μ 3 \mu_3 μ3在任务3中本就产生奖励1）。信念更新后，智能体锁定任务3。

四、IDAQ方法

4.1 整体框架

输入：离线数据集 D + \mathcal{D}^+ D+，测试任务，元训练算法（如FOCAL），不确定性量化函数 Q ( τ ) \mathbb{Q}(\tau) Q(τ)

阶段1：离线元训练 ：

用FOCAL等算法训练上下文编码器 q ( z ∣ c ) q(z|c) q(z∣c) 和元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)，其中 z z z是任务隐变量。

上下文编码器 q ( z ∣ c ) q(z|c) q(z∣c)：根据历史上下文推断任务信念
元策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)：基于状态和任务假设选择动作

阶段2：在线适应：

参考阶段（Reference Stage） ：目标：估计阈值 δ \delta δ
1. 用先验 q ( z ) q(z) q(z) 收集 n r n_r nr 条轨迹
2. 计算其不确定性 { Q ( τ i ) } \{\mathbb{Q}(\tau_i)\} {Q(τi)}
3. 取k%分位数 作为阈值 δ \delta δ
4. 并筛选分布内上下文： c i n = { τ i ∣ Q ( τ i ) ≤ δ } c_{in} = \{\tau_i | \mathbb{Q}(\tau_i) \leq \delta\} cin={τi∣Q(τi)≤δ}
迭代更新阶段（Iterative Updating Stage） ：在 n i n_i ni 轮迭代中：
- 用当前信念 q ( z ∣ c i n ) q(z|c_{in}) q(z∣cin) 采样任务 z z z
- 执行策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z) 收集轨迹 τ j \tau_j τj
- 若 Q ( τ j ) ≤ δ \mathbb{Q}(\tau_j) \leq \delta Q(τj)≤δ （在分布内），则更新 c i n ← c i n ∪ { τ j } c_{in} \leftarrow c_{in} \cup \{\tau_j\} cin←cin∪{τj}并更新信念 q ( z ∣ c i n ) q(z|c_{in}) q(z∣cin)

Remark ：阈值 δ \delta δ将轨迹分为可信的任务推断经验 （低不确定性）和噪声（高不确定性）。

4.2 不确定性量化方法

论文比较了三种不确定性量化方法：

4.2.1 预测误差（Prediction Error）

在离线数据上学习一个奖励-动态模型集合 { r ϕ i , p ψ i } i = 1 L \{r_{\phi_i}, p_{\psi_i}\}{i=1}^L {rϕi,pψi}i=1L：
Q P E ( τ i , z ) = 1 H L ∑ t = 0 H − 1 ∑ i = 1 L ( ∣ r t − r ϕ i ( s t , a t , z ) ∣ + ∥ s t + 1 − p ψ i ( s t , a t , z ) ∥ 2 ) (3) \mathbb{Q}{PE}(\tau_i, z) = \frac{1}{HL} \sum_{t=0}^{H-1} \sum_{i=1}^L \left( |r_t - r_{\phi_i}(s_t, a_t, z)| + \|s_{t+1} - p_{\psi_i}(s_t, a_t, z)\|_2 \right) \quad \text{(3)} QPE(τi,z)=HL1t=0∑H−1i=1∑L(∣rt−rϕi(st,at,z)∣+∥st+1−pψi(st,at,z)∥2)(3)

原理：基于集成模型的预测误差。如果模型在某个轨迹上预测误差大，说明该轨迹在训练数据中不常见。

问题：在专家数据集中，所有轨迹奖励都很高，预测误差可能都很小，无法区分"奖励1"和"奖励0"的轨迹。低误差区域会覆盖高回报和低回报轨迹，无法设定有效阈值。

4.2.2 预测方差（Prediction Variance）

Q P V ( τ i , z ) = 1 H ∑ t = 0 H − 1 max ⁡ i , j ( ∣ r ϕ i ( s t , a t , z ) − r ϕ j ( s t , a t , z ) ∣ + ∥ p ψ i ( s t , a t , z ) − p ψ j ( s t , a t , z ) ∥ 2 ) (4) \mathbb{Q}{PV}(\tau_i, z) = \frac{1}{H} \sum{t=0}^{H-1} \max_{i,j} \left( |r_{\phi_i}(s_t, a_t, z) - r_{\phi_j}(s_t, a_t, z)| + \|p_{\psi_i}(s_t, a_t, z) - p_{\psi_j}(s_t, a_t, z)\|_2 \right) \quad \text{(4)} QPV(τi,z)=H1t=0∑H−1i,jmax(∣rϕi(st,at,z)−rϕj(st,at,z)∣+∥pψi(st,at,z)−pψj(st,at,z)∥2)(4)

原理：测量集成模型之间的分歧。模型对熟悉的数据预测一致，对陌生数据预测分歧大。

问题：在专家或中等质量数据集中，模型可能学到确定性的映射（如"所有动作都预测奖励1"），此时方差接近0，但错误预测误差很高。方差无法捕捉这种"高误差-低方差"的出分布情况。

4.2.3 基于回报的不确定性（Return-based）------IDAQ的核心

Q R E ( { τ i } i = 1 n e ) = − 1 n e ∑ i = 1 n e ∑ t = 0 H − 1 r t i (5) \mathbb{Q}{RE}\left(\{\tau_i\}{i=1}^{n_e}\right) = -\frac{1}{n_e} \sum_{i=1}^{n_e} \sum_{t=0}^{H-1} r_t^i \quad \text{(5)} QRE({τi}i=1ne)=−ne1i=1∑net=0∑H−1rti(5)

原理：离线RL的偏差导致出分布轨迹通常有较低回报 （因为模型未优化这些状态）。其逆否命题是：高回报轨迹更可能在分布内。

实现：直接取多条轨迹的平均累积奖励的负值作为不确定性（回报越高，不确定性越低）。

理论保证 ：在假设1 （有效离线训练下，准确任务假设的回报高于错误假设）下，结合定理3，可以证明 Q R E \mathbb{Q}_{RE} QRE 能筛选出分布内episode（见附录A.5）。

优势：无需学习额外模型，对超参数不敏感，且在专家/中等数据集上效果卓越。

五、实验

5.1 实验设置

基准环境：

Meta-World ML1：50个机器人操作任务
Point-Robot和Cheetah-Vel：经典元RL任务

对比方法：

FOCAL、MACAW：离线元RL方法
BOReL：需要已知奖励函数的基线
各方法的在线适应变体

5.2 不确定性量化的比较

在8个代表性任务上的测试显示，基于回报的量化在大多数任务上表现最佳：

IDAQ+Return：平均得分0.55-0.99，远超其他
IDAQ+Prediction Error/Variance：在复杂任务上失败（如Sweep-Med仅0.13/0.03 vs 0.59）
FOCAL（无筛选）：直接使用所有在线经验，因分布偏移而失败（0.07-0.34）

为何其他方法失败：在中等或专家数据集中，数据覆盖度低但质量高。模型可能过拟合到"奖励≈1"的确定性模式。当在线产生奖励0时：

预测误差 ：可能因模型容量不足而低估误差（图8中低误差区域覆盖所有回报）
预测方差 ：因预测确定性而方差≈0，无法区分（图9中阈值失效）

5.3 主实验：50个Meta-World任务

在ML1基准（50个机器人臂操作任务）上，IDAQ展现出压倒性优势：

在线适应设置 ：IDAQ平均得分0.73，显著高于FOCAL(0.53)、MACAW(0.18)和BOReL(0.04)
与离线适应对比 ：IDAQ达到与FOCAL+专家上下文(0.67)和MACAW+专家上下文(0.68)相当甚至更优的性能，证明专家上下文并非必要

IDAQ不仅优于所有在线适应基线，甚至达到或超过了使用专家上下文的离线适应方法，表明专家上下文在测试环境中可能不是必需的。

5.4 消融实验

参考阶段长度 ： n r = 10 n_r=10 nr=10（总20轮）时最优，过短无法可靠估计阈值，过长减少迭代次数
数据集质量：在中等质量数据，IDAQ+Return依然有效（Sweep-Med: 0.59 vs FOCAL: 0.38），而其他量化方法崩溃
超参数鲁棒性 ：模型集合大小 L L L在2-12间变化时，IDAQ+Return稳定优于其他量化方法

六、总结

本文通过形式化离线元RL中的转移-奖励分布偏移问题，提出了理论上有保证的IDAQ框架。实验证明，IDAQ在复杂任务上实现了最先进的性能，且不需要专家上下文等额外信息。这项工作为离线元RL的实际应用提供了重要基础。

局限：基于回报的量化可能忽略低回报的分布内轨迹，需要更多探索；在随机性强的数据集（如随机策略收集）上假设可能不成立

与现有分布偏移研究的区别：

单任务离线RL：关注状态-动作分布偏移（state-action shift），即策略访问的状态与数据集不匹配。解决方法包括策略约束、悲观值估计等。
SMAC（Pong et al., 2022） ：在meta-RL中研究策略分布偏移，即任务隐变量 z z z的分布偏移。
本文工作 ：首次识别过渡-奖励分布偏移 ，这是任务依赖行为策略的特有产物，独立于状态-动作分布 。即使通过策略约束让访问的状态在数据集中，其结果分布仍可能偏移。