文章目录
-
- 关键词
- 一、问题背景
-
- [1.1 监督学习 vs 强化学习中的 OOD](#1.1 监督学习 vs 强化学习中的 OOD)
- [1.2 为什么不能直接套用监督学习的 OOD 方法](#1.2 为什么不能直接套用监督学习的 OOD 方法)
- [二、四类 OOD 检测对象](#二、四类 OOD 检测对象)
-
- [2.1 State OOD:状态分布偏移](#2.1 State OOD:状态分布偏移)
- [2.2 Action OOD:动作分布偏移](#2.2 Action OOD:动作分布偏移)
- [2.3 Transition OOD:转移动态偏移](#2.3 Transition OOD:转移动态偏移)
- [2.4 Trajectory OOD:轨迹级分布偏移](#2.4 Trajectory OOD:轨迹级分布偏移)
- [三、六类 OOD 检测方法:原理、代码与 RL 适用性](#三、六类 OOD 检测方法:原理、代码与 RL 适用性)
-
- [3.1 基于距离的方法(Mahalanobis / kNN)](#3.1 基于距离的方法(Mahalanobis / kNN))
- [3.2 基于重构的方法(Autoencoder / VAE)](#3.2 基于重构的方法(Autoencoder / VAE))
- [3.3 基于集成的方法(Ensemble Uncertainty)](#3.3 基于集成的方法(Ensemble Uncertainty))
- [3.4 基于策略输出的方法(Policy Entropy / Max Probability)](#3.4 基于策略输出的方法(Policy Entropy / Max Probability))
- [3.5 基于 Conformal Prediction 的方法](#3.5 基于 Conformal Prediction 的方法)
- [3.6 基于轨迹级时序分析的方法](#3.6 基于轨迹级时序分析的方法)
- [四、离线强化学习中的 OOD 问题(专题)](#四、离线强化学习中的 OOD 问题(专题))
- [五、通用 OOD 检测工具库](#五、通用 OOD 检测工具库)
- 六、选型指南:如何根据场景选择检测方法
- 七、一个通用实现流程
-
- [7.1 流程总览](#7.1 流程总览)
- [7.2 示意代码](#7.2 示意代码)
- 八、研究趋势与技术演进
- 九、参考文献
摘要 :本文系统梳理强化学习(RL)场景下 Out-of-Distribution(OOD)检测的问题定义、四类检测对象(状态 / 动作 / 转移 / 轨迹)、六类主流检测方法,以及代表论文与可复现的开源代码,帮助研究者和工程师建立一套可操作的 RL OOD 检测知识框架。本文是"强化学习 OOD 与可信决策"系列第 1 篇,侧重 检测 ;第 2 篇侧重检测之后的 决策与行动。
关键词
强化学习 OOD Detection Distribution Shift Uncertainty Estimation Mahalanobis Distance Conformal Prediction Offline RL
一、问题背景
1.1 监督学习 vs 强化学习中的 OOD
在监督学习中,OOD 检测通常解决一个问题:当前输入样本是否来自训练分布之外? 例如一个猫狗分类器遇到了医学影像。
但强化学习中的 OOD 问题 更复杂。RL agent 在环境中连续交互,不是做一次静态预测:
text
state → action → next_state → reward → next_action → ...
分布偏移可能发生在 多个层面:
| 层次 | OOD 表现 | 典型例子 |
|---|---|---|
| 状态级 State OOD | 当前状态偏离训练分布 | 机器人进入训练中未见过的姿态或地形 |
| 动作级 Action OOD | 策略选择了训练数据中罕见的动作 | 离线 RL 中 policy 选出数据集外动作 |
| 转移级 Transition OOD | 环境动力学发生变化 | 机器人负载改变、路面摩擦变化 |
| 奖励级 Reward OOD | 任务目标或奖励函数变化 | 从速度优先变成安全优先 |
| 轨迹级 Trajectory OOD | 一段交互序列整体异常 | 系统逐步进入未见过的状态演化模式 |
这五个层面构成了 RL OOD 区别于普通 OOD 的核心。
1.2 为什么不能直接套用监督学习的 OOD 方法
| 差异维度 | 监督学习 | 强化学习 |
|---|---|---|
| 输入性质 | 静态独立样本 | 时序相关的状态-动作序列 |
| 分布来源 | 单一输入分布 | 状态、动作、转移、奖励多重分布 |
| 反馈机制 | 有标签、可直接验证 | 奖励延迟且稀疏 |
| 失败后果 | 单次预测错误 | 连锁决策失败、安全事故 |
| 实时性要求 | 通常可离线评估 | 需在线实时检测 |
因此,RL 场景需要 专门设计 的 OOD 检测方法,而不仅是把图像 OOD detector 搬过来。
二、四类 OOD 检测对象
2.1 State OOD:状态分布偏移
问题描述:训练时 agent 只见过某些状态区域,部署时进入了未覆盖的状态空间。
核心挑战:状态空间通常高维连续,边界不清晰;传感器噪声与真实 OOD 难以区分。
常见原因:环境初始条件变化、传感器噪声或遮挡、外部扰动增加、测试环境参数与训练不同。
直觉理解:把训练阶段见过的所有状态想象成特征空间中的一片"领地",State OOD 就是 agent 走出了这片领地的边界。
适用检测方法:Mahalanobis distance、kNN distance、Autoencoder / VAE reconstruction error、Isolation Forest、Neural network embedding density。
2.2 Action OOD:动作分布偏移
问题描述 :策略选择了训练数据中从未或很少出现过的动作,导致 Q 函数估计不可靠。在 离线强化学习 中最为突出。
核心挑战:Q 函数对 OOD 动作没有真实样本约束,极易产生过估计,形成"自我强化"的错误循环。
text
问题链条:
训练数据只覆盖部分 (state, action) pairs
→ Q-learning 中 max_a Q(s, a) 可能选到数据外动作
→ 这些动作没有真实样本约束 Q 值
→ Q 值过估计 → 策略失效
核心对策:保守 Q 学习(CQL)、模型不确定性惩罚(MOPO / MOReL)、不确定性降权(UWAC)、行为正则化。详见第四节。
2.3 Transition OOD:转移动态偏移
问题描述 :环境的状态转移函数发生变化,即 P train ( s ′ ∣ s , a ) ≠ P test ( s ′ ∣ s , a ) P_{\text{train}}(s' \mid s, a) \neq P_{\text{test}}(s' \mid s, a) Ptrain(s′∣s,a)=Ptest(s′∣s,a)。
核心挑战 :Transition OOD 往往是最 隐蔽 且最 危险 的一类------单看当前状态可能完全正常,只有观察"做了动作 a a a 之后到达的 s ′ s' s′ 是否符合预期"才能发现问题。
典型场景:机器人关节磨损导致动作响应变慢、无人车遇到湿滑路面、工业控制系统负载突变、仿真到真实部署的 sim-to-real gap。
检测信号:dynamics model prediction error、ensemble dynamics variance、next-state likelihood、temporal prediction residual。
2.4 Trajectory OOD:轨迹级分布偏移
问题描述:异常不是单个状态能看出来的,需要观察一段交互序列的整体趋势。
核心挑战:需要把时序交互序列转换成可用于异常检测的特征表示,且不能引入过大的检测延迟。
text
trajectory = [(s₁, a₁, r₁), (s₂, a₂, r₂), ..., (sₜ, aₜ, rₜ)]
features = temporal_statistics(trajectory) # 时序统计特征
score = anomaly_detector(features) # 异常打分
典型场景:单个状态看起来正常但连续变化趋势异常、agent 逐渐漂移进入失败区域、动作频率和奖励波动逐渐偏离训练轨迹。
小结:四类 OOD 的检测难度递增------State OOD 最直观,Trajectory OOD 最需要上下文。实际系统中它们经常同时存在,需要组合多种检测器。
三、六类 OOD 检测方法:原理、代码与 RL 适用性
3.1 基于距离的方法(Mahalanobis / kNN)
问题描述:在特征空间中度量新样本与训练分布的距离,距离越大越可能 OOD。
核心方法:Mahalanobis 距离考虑特征协方差,比欧氏距离更适合多维分布:
D M ( x ) = ( x − μ ) T Σ − 1 ( x − μ ) D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} DM(x)=(x−μ)TΣ−1(x−μ)
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| pokaxpoka/deep_Mahalanobis_detector | PyTorch | 多层特征 Mahalanobis + 输入预处理 | Lee et al., NeurIPS 2018 | ✅ |
| deeplearning-wisc/knn-ood | PyTorch | kNN distance on embeddings | Sun et al., ICML 2022 | ✅ |
| mueller-mp/maha-norm | PyTorch | Relative Mahalanobis distance | Mueller et al. | ✅ |
| haoqiwang/vim | PyTorch | ViM: Virtual-logit Matching | Wang et al., CVPR 2022 | ✅ |
RL 适用性 :适合 State OOD;对低维连续状态(如 MuJoCo 关节角度)效果好,高维图像观测需先通过神经网络提取 embedding。
定位区别:
deep_Mahalanobis_detector是该方向的经典基线,引用量最高knn-ood放松了高斯假设,对非线性分布更鲁棒vim是 2022 年的改进方法,在视觉任务上表现优于原始 Mahalanobis
3.2 基于重构的方法(Autoencoder / VAE)
问题描述:假设模型在训练分布上能较好重构输入,在 OOD 输入上重构误差更大。
核心方法:
text
训练阶段:用 in-distribution 数据训练 autoencoder / VAE
检测阶段:reconstruction_error = ||x - decoder(encoder(x))||
如果 error > threshold → 判为 OOD
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| CPS-research-group/CPS-NTU-Public | PyTorch | 轻量 VAE 嵌入式 OOD 检测 | Duckietown 机器人平台 | ✅ |
| SeldonIO/alibi-detect | TensorFlow/PyTorch | VAE / AE OOD detector + 漂移检测 | Seldon 开源 | ✅ |
| Jingkang50/OpenOOD | PyTorch | 含 AE/VAE 在内的 30+ OOD 方法基准 | Yang et al., NeurIPS 2022 | ✅ |
RL 适用性 :适合 State OOD(尤其是视觉 RL);VAE 的 latent space 更结构化,可同时利用重构误差和 KL 散度作为 OOD 信号。可扩展到 Transition OOD(重构 next-state)。
实践提示:VAE 比普通 AE 更推荐。但需注意------高容量模型可能也能重构 OOD 样本("过于万能的解码器"问题),因此阈值校准至关重要。
3.3 基于集成的方法(Ensemble Uncertainty)
问题描述:训练多个模型,用预测分歧程度衡量不确定性------分歧大则说明对该输入不熟悉。
核心挑战:在 RL 中,ensemble 可以作用于不同层面的模型:
| 模型类型 | 不确定性信号 | 对应检测 |
|---|---|---|
| Q ensemble | Q 值方差 | Action OOD / State OOD |
| Policy ensemble | 动作分布差异 | State OOD |
| Dynamics ensemble | next-state 预测方差 | Transition OOD |
| Value ensemble | value estimate variance | State OOD |
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| osband/bsuite | TF/JAX | Bootstrapped DQN + 不确定性基准 | Osband et al., NeurIPS 2019 | ✅ |
| kchua/handful-of-trials | TensorFlow | PETS: 概率集成动力学模型 | Chua et al., NeurIPS 2018 | ✅ |
| facebookresearch/mbrl-lib | PyTorch | 模块化 MBRL 库,含 ensemble uncertainty | Pineda et al., arXiv 2021 | ✅ |
| jannerm/mbpo | PyTorch | MBPO: dynamics ensemble + 短视 rollout | Janner et al., NeurIPS 2019 | ✅ |
方法亮点 :RL 本身就常用 ensemble(如 SAC 的 twin Q、MOPO 的 dynamics ensemble),可以 几乎零成本地 复用已有模型获得不确定性信号,是 RL 中最实用的不确定性估计方法。
定位区别:
bsuite提供标准化基准,适合系统评估 uncertainty-aware agenthandful-of-trials(PETS)是 model-based RL + ensemble 的经典起点mbrl-lib是 Meta 出品的模块化库,适合快速搭建 dynamics ensemble 实验mbpo展示了如何利用 ensemble 方差做短视 rollout 截断
3.4 基于策略输出的方法(Policy Entropy / Max Probability)
问题描述:直接观察策略网络输出的统计信号,不需要额外模型。
核心方法:
text
max_prob = max_a π(a | s) # 最大动作概率
entropy = -Σ π(a | s) log π(a | s) # 策略熵
max_prob 越低 / entropy 越高 → 策略越"犹豫"
| 维度 | 评价 |
|---|---|
| 优点 | 计算零开销、不需要额外模型、适合离散动作空间 |
| 缺点 | 低 entropy ≠ 可靠------神经网络在 OOD 输入上也可能输出极高置信度 |
| RL 适用性 | 仅作辅助信号,不应作为唯一的 OOD 检测标准 |
⚠️ 重要警告 :Policy entropy 是最容易获得但 最不可靠 的 OOD 信号。过度依赖它是 RL OOD 检测中最常见的错误之一。
3.5 基于 Conformal Prediction 的方法
问题描述 :把任意不确定性分数转成带 统计保证 的阈值,而不是凭直觉设一个 magic number。
核心方法:
text
1. 定义 nonconformity score(可以是上述任何方法的打分)
2. 在 calibration set 上计算 score 分布
3. 取指定分位数(如 95%)作为阈值
4. 部署时超过阈值则判为异常
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| valeman/awesome-conformal-prediction | --- | Conformal Prediction 论文/代码合集 | 社区维护 | ✅ |
| aangelopoulos/conformal-prediction | Python | 实用 conformal prediction 教程 + 代码 | Angelopoulos & Bates, ACM 2023 | ✅ |
RL 适用性 :Conformal Prediction 不是一种新的检测方法,而是一种 校准框架------把任意 OOD score 转化为有统计意义的阈值。适合安全关键系统(需要声称"我有 95% 的信心认为当前状态正常")。
相关 RL 论文(暂无独立公开仓库):
| 论文 | 来源 | 特点 |
|---|---|---|
| Conformal Prediction for Safe Reinforcement Learning | 2024 | 用 conformal 阈值做安全约束 |
| Conformalized Model Predictive Control | L4DC 2024 | conformal + MPC 安全控制 |
| Conformal Action Modeling in Multi-Agent RL | 2024 | 多智能体场景下的 conformal 动作建模 |
3.6 基于轨迹级时序分析的方法
问题描述:将 agent 的交互序列视为时间序列,提取时序统计特征后用异常检测器打分。
核心挑战:需要在"足够长的窗口"和"足够小的检测延迟"之间权衡。
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| LinasNas/DEXTER | Python | 轨迹时序特征 + Isolation Forest | Nasvytis et al., 2024 | ✅ |
| modanesh/anomalous_rl_envs | Python | RL-relevant dynamics shift benchmark | Danesh et al., NeurIPS Workshop 2022 | ✅ |
| modanesh/recurrent_implicit_quantile_networks | PyTorch | RIQN 时序预测误差作为异常信号 | Danesh et al. | ✅ |
方法亮点:
- DEXTER 是当前 RL 轨迹级 OOD 检测最完整的开源实现,提供了 benchmark 构造方法 + 多种 detector 对比
- anomalous_rl_envs 提供了在 MuJoCo 环境上修改物理参数(重力、摩擦、质量)构造 dynamics shift 的标准方法
- RIQN 用 recurrent network 的预测误差作为异常信号,适合长序列检测
四、离线强化学习中的 OOD 问题(专题)
离线 RL 是 OOD 问题最突出的场景------agent 只能使用固定数据集 D = { ( s , a , r , s ′ ) } D = \{(s, a, r, s')\} D={(s,a,r,s′)} 训练,如果策略选择了数据集外的动作,Q 函数没有真实反馈约束,极易产生过估计。
以下方法本质上解决同一个问题:不让 agent 过度信任训练数据没有覆盖的区域,但策略不同。
| 仓库 | 框架 | 核心方法 | 论文来源 | 代码状态 |
|---|---|---|---|---|
| aviralkumar2907/CQL | PyTorch | 保守 Q-Learning:压低 OOD 动作 Q 值 | Kumar et al., NeurIPS 2020 | ✅ |
| tianheyu927/mopo | PyTorch | MOPO:dynamics ensemble 方差作为 reward penalty | Yu et al., NeurIPS 2020 | ✅ |
| SwapnilPande/MOReL | PyTorch | MOReL:高不确定区域 → 悲观吸收状态 | Kidambi et al., NeurIPS 2020 | ✅ |
| apple/ml-uwac | PyTorch | UWAC:对高不确定 (s,a) 降低训练权重 | Wu et al., ICML 2021 | ✅ |
| ikostrikov/implicit_q_learning | PyTorch/JAX | IQL:用 expectile regression 避免显式选数据外动作 | Kostrikov et al., ICLR 2022 | ✅ |
| Zhendong-Wang/Diffusion-Policies-for-Offline-RL | PyTorch | Diffusion Policy:在数据流形上生成动作 | Wang et al., NeurIPS 2023 | ✅ |
| takuseno/d3rlpy | PyTorch | 统一库:CQL/IQL/BCQ/BEAR/TD3+BC 等 | Seno & Imai | ✅ |
| corl-team/CORL | PyTorch | Clean 单文件实现:CQL/IQL/AWAC/SAC-N/EDAC | CORL team | ✅ |
| yihaosun1124/OfflineRL-Kit | PyTorch | 模块化库:含 MOPO/COMBO/CQL/IQL/MCQ | Sun et al. | ✅ |
这几个仓库的定位区别:
CQL/MOPO/MOReL/UWAC/IQL是各方法的 原作者官方实现,适合论文复现和深入理解d3rlpy是最全面的统一库,2024-2025 年仍在活跃维护,推荐作为实验主力框架CORL每个算法一个文件,代码极简,适合 阅读源码学习原理OfflineRL-Kit侧重 model-based 方法(MOPO / COMBO),如果研究 dynamics uncertainty 优先选它Diffusion Policy代表最新方向------用扩散模型在数据流形上采样动作,从源头绕过 OOD 问题
关键机制对比:
| 方法 | 应对 OOD 的核心策略 | 优势 | 局限 |
|---|---|---|---|
| CQL | 在训练目标中加正则项,压低 OOD 动作的 Q 值 | 简单有效、无需动力学模型 | 过于保守时性能下降 |
| MOPO | dynamics ensemble 方差大 → reward 减 penalty | 有原理性保证 | 需要训练 dynamics model |
| MOReL | 高不确定区域建模为悲观吸收状态 | 保守性有理论保证 | 悲观程度难调 |
| UWAC | 对 ( s , a ) (s,a) (s,a) 的训练权重按不确定性降权 | 软性处理、不一刀切 | 不确定性估计本身需要可靠 |
| IQL | expectile regression,根本不对数据外动作求 max | 实现简洁、性能强 | 可能过于保守 |
| Diffusion | 在数据流形上采样,天然 in-distribution | 从源头避免 OOD | 推理速度较慢 |
五、通用 OOD 检测工具库
以上研究的复现和工程化依赖统一的工具库和基准,以下是推荐的公共基础:
| 仓库 | 框架 | 定位 | 支持范围 |
|---|---|---|---|
| kkirchheim/pytorch-ood | PyTorch | 通用 OOD detector + 评估指标 | Mahalanobis / Energy / ODIN / kNN 等 20+ 方法 |
| Jingkang50/OpenOOD | PyTorch | OOD benchmark 和方法集合 | 30+ 方法、统一评估框架、预训练模型 |
| SeldonIO/alibi-detect | TF/PyTorch | 异常检测 + 漂移检测 + OOD 检测 | Drift / Outlier / Adversarial 三大类 |
| DLR-RM/stable-baselines3 | PyTorch | 强化学习训练框架 | PPO / SAC / DQN 等标准 RL 算法 |
| vwxyzjn/cleanrl | PyTorch | 单文件 RL 算法实现 | 每个算法一个文件,适合学习和修改 |
| Farama-Foundation/Minari | Python | 离线 RL 数据集标准 | Gym 兼容,标准化数据格式 |
六、选型指南:如何根据场景选择检测方法
你的检测目标是什么?
│
├─ State OOD(状态是否偏离训练分布)
│ ├─ 低维连续状态(如 MuJoCo 关节角度)
│ │ └─ 推荐:Mahalanobis distance(简单快速)
│ └─ 高维图像观测(如 Atari、摄像头)
│ └─ 推荐:VAE reconstruction error
│
├─ Action OOD(动作是否在数据支持范围内)
│ └─ 离线 RL 训练阶段
│ ├─ 需要统一框架 → d3rlpy(含 CQL/IQL/BCQ 等)
│ ├─ 需要 model-based → OfflineRL-Kit(含 MOPO/COMBO)
│ └─ 需要最新方法 → Diffusion Policy
│
├─ Transition OOD(环境动力学是否变化)
│ └─ 推荐:Dynamics ensemble variance
│ ├─ 快速搭建 → mbrl-lib
│ ├─ 标准 benchmark → anomalous_rl_envs
│ └─ 需要统计保证 → Conformal Prediction 校准
│
└─ Trajectory OOD(轨迹序列整体是否异常)
└─ 推荐:DEXTER(轨迹时序特征 + Isolation Forest)
七、一个通用实现流程
7.1 流程总览
text
训练阶段:
1. 收集 in-distribution trajectories
2. 提取 state / action / transition / trajectory features
3. 训练或拟合 OOD detector(如 Mahalanobis、AE、Ensemble)
4. 在 validation set 上校准 threshold(推荐 conformal quantile)
部署阶段:
1. 观察当前 state
2. 提取特征
3. 计算 OOD score
4. 判断是否超过 threshold
5. 若 OOD → 触发保守策略 / 报警 / 安全控制(详见第 2 篇)
7.2 示意代码
python
import numpy as np
class OODMonitor:
"""通用 OOD 检测监视器"""
def __init__(self, detector, threshold):
self.detector = detector
self.threshold = threshold
self.history = []
def score(self, features):
return self.detector.score(features)
def is_ood(self, features):
s = self.score(features)
self.history.append({"score": s, "is_ood": s > self.threshold})
return s > self.threshold
def rl_step_with_ood_monitor(agent, env, monitor, safe_policy):
"""一步 RL 交互,带 OOD 检测"""
state = env.observe()
features = extract_features(state)
ood_score = monitor.score(features)
if monitor.is_ood(features):
action = safe_policy(state)
source = "safe_policy"
else:
action = agent.act(state)
source = "rl_agent"
next_state, reward, done, info = env.step(action)
metadata = {
"source": source,
"ood_score": ood_score,
"state": state,
"action": action,
}
return next_state, reward, done, metadata
这里的 safe_policy 可以是规则策略、保守控制器或降级模式。关于检测之后如何决策,详见本系列第 2 篇。
八、研究趋势与技术演进
| 演进方向 | 早期方案 | 近期方案(2023-2025) | 核心进步 |
|---|---|---|---|
| 检测粒度 | 单状态 OOD | 轨迹级 + 多粒度组合(DEXTER, MOOD) | 从"点检测"到"序列检测" |
| 离线 RL 中的 OOD 处理 | 行为克隆约束 | CQL → IQL → Diffusion Policy | 从"约束策略"到"在数据流形上采样" |
| 不确定性估计 | 单一 dropout | Deep Ensemble → Hypermodel / Epinet | 从近似贝叶斯到高效参数化 |
| 阈值设定 | 手动调参 | Conformal Prediction 统计校准 | 从"拍脑袋"到"有统计保证" |
| 检测目标 | 通用 OOD | Task-relevant OOD(与任务风险对齐) | 不再检测所有偏移,只检测影响决策的偏移 |
| 检测与决策的集成 | 检测和策略分离 | OOD-aware decision gate(见第 2 篇) | 检测结果直接驱动策略切换 |
九、参考文献
- Hendrycks, D. & Gimpel, K. (2017). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. ICLR.
- Lee, K. et al. (2018). A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks. NeurIPS.
- Liu, W. et al. (2020). Energy-based Out-of-distribution Detection. NeurIPS.
- Nasvytis, L. et al. (2024). Rethinking Out-of-Distribution Detection for Reinforcement Learning (DEXTER).
- Danesh, M. et al. (2022). Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and Results. NeurIPS Workshop.
- Kumar, A. et al. (2020). Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS.
- Yu, T. et al. (2020). MOPO: Model-based Offline Policy Optimization. NeurIPS.
- Kidambi, R. et al. (2020). MOReL: Model-Based Offline Reinforcement Learning. NeurIPS.
- Wu, Y. et al. (2021). Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning. ICML.
- Kostrikov, I. et al. (2022). Offline Reinforcement Learning with Implicit Q-Learning. ICLR.
- Wang, Z. et al. (2023). Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning. NeurIPS.
- Sun, Y. et al. (2022). Out-of-Distribution Detection with Deep Nearest Neighbors. ICML.
- Chua, K. et al. (2018). Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models. NeurIPS.
- Angelopoulos, A. & Bates, S. (2023). Conformal Prediction: A Gentle Introduction. ACM.
- Yang, J. et al. (2022). OpenOOD: Benchmarking Generalized Out-of-Distribution Detection. NeurIPS.
- Osband, I. et al. (2019). Behaviour Suite for Reinforcement Learning. NeurIPS.
持续追踪新仓库 :
github.com/topics/out-of-distribution-detection · github.com/topics/offline-reinforcement-learning · github.com/topics/uncertainty-estimation · paperswithcode.com/task/out-of-distribution-detection