强化学习中的OOD检测：从状态异常到分布偏移

文章目录

- 关键词
- 一、问题背景
- - [1.1 监督学习 vs 强化学习中的 OOD](#1.1 监督学习 vs 强化学习中的 OOD)
  - [1.2 为什么不能直接套用监督学习的 OOD 方法](#1.2 为什么不能直接套用监督学习的 OOD 方法)
- [二、四类 OOD 检测对象](#二、四类 OOD 检测对象)
- - [2.1 State OOD：状态分布偏移](#2.1 State OOD：状态分布偏移)
  - [2.2 Action OOD：动作分布偏移](#2.2 Action OOD：动作分布偏移)
  - [2.3 Transition OOD：转移动态偏移](#2.3 Transition OOD：转移动态偏移)
  - [2.4 Trajectory OOD：轨迹级分布偏移](#2.4 Trajectory OOD：轨迹级分布偏移)
- [三、六类 OOD 检测方法：原理、代码与 RL 适用性](#三、六类 OOD 检测方法：原理、代码与 RL 适用性)
- - [3.1 基于距离的方法（Mahalanobis / kNN）](#3.1 基于距离的方法（Mahalanobis / kNN）)
  - [3.2 基于重构的方法（Autoencoder / VAE）](#3.2 基于重构的方法（Autoencoder / VAE）)
  - [3.3 基于集成的方法（Ensemble Uncertainty）](#3.3 基于集成的方法（Ensemble Uncertainty）)
  - [3.4 基于策略输出的方法（Policy Entropy / Max Probability）](#3.4 基于策略输出的方法（Policy Entropy / Max Probability）)
  - [3.5 基于 Conformal Prediction 的方法](#3.5 基于 Conformal Prediction 的方法)
  - [3.6 基于轨迹级时序分析的方法](#3.6 基于轨迹级时序分析的方法)
- [四、离线强化学习中的 OOD 问题（专题）](#四、离线强化学习中的 OOD 问题（专题）)
- [五、通用 OOD 检测工具库](#五、通用 OOD 检测工具库)
- 六、选型指南：如何根据场景选择检测方法
- 七、一个通用实现流程
- - [7.1 流程总览](#7.1 流程总览)
  - [7.2 示意代码](#7.2 示意代码)
- 八、研究趋势与技术演进
- 九、参考文献

摘要：本文系统梳理强化学习（RL）场景下 Out-of-Distribution（OOD）检测的问题定义、四类检测对象（状态 / 动作 / 转移 / 轨迹）、六类主流检测方法，以及代表论文与可复现的开源代码，帮助研究者和工程师建立一套可操作的 RL OOD 检测知识框架。本文是"强化学习 OOD 与可信决策"系列第 1 篇，侧重检测；第 2 篇侧重检测之后的 决策与行动。

关键词

强化学习 OOD Detection Distribution Shift Uncertainty Estimation Mahalanobis Distance Conformal Prediction Offline RL

一、问题背景

1.1 监督学习 vs 强化学习中的 OOD

在监督学习中，OOD 检测通常解决一个问题：当前输入样本是否来自训练分布之外？ 例如一个猫狗分类器遇到了医学影像。

但强化学习中的 OOD 问题 更复杂。RL agent 在环境中连续交互，不是做一次静态预测：

text 复制代码

state → action → next_state → reward → next_action → ...

分布偏移可能发生在 多个层面：

层次	OOD 表现	典型例子
状态级 State OOD	当前状态偏离训练分布	机器人进入训练中未见过的姿态或地形
动作级 Action OOD	策略选择了训练数据中罕见的动作	离线 RL 中 policy 选出数据集外动作
转移级 Transition OOD	环境动力学发生变化	机器人负载改变、路面摩擦变化
奖励级 Reward OOD	任务目标或奖励函数变化	从速度优先变成安全优先
轨迹级 Trajectory OOD	一段交互序列整体异常	系统逐步进入未见过的状态演化模式

这五个层面构成了 RL OOD 区别于普通 OOD 的核心。

1.2 为什么不能直接套用监督学习的 OOD 方法

差异维度	监督学习	强化学习
输入性质	静态独立样本	时序相关的状态-动作序列
分布来源	单一输入分布	状态、动作、转移、奖励多重分布
反馈机制	有标签、可直接验证	奖励延迟且稀疏
失败后果	单次预测错误	连锁决策失败、安全事故
实时性要求	通常可离线评估	需在线实时检测

因此，RL 场景需要 专门设计 的 OOD 检测方法，而不仅是把图像 OOD detector 搬过来。

二、四类 OOD 检测对象

2.1 State OOD：状态分布偏移

问题描述：训练时 agent 只见过某些状态区域，部署时进入了未覆盖的状态空间。

核心挑战：状态空间通常高维连续，边界不清晰；传感器噪声与真实 OOD 难以区分。

常见原因：环境初始条件变化、传感器噪声或遮挡、外部扰动增加、测试环境参数与训练不同。

直觉理解：把训练阶段见过的所有状态想象成特征空间中的一片"领地"，State OOD 就是 agent 走出了这片领地的边界。

适用检测方法：Mahalanobis distance、kNN distance、Autoencoder / VAE reconstruction error、Isolation Forest、Neural network embedding density。

2.2 Action OOD：动作分布偏移

问题描述 ：策略选择了训练数据中从未或很少出现过的动作，导致 Q 函数估计不可靠。在 离线强化学习 中最为突出。

核心挑战：Q 函数对 OOD 动作没有真实样本约束，极易产生过估计，形成"自我强化"的错误循环。

text 复制代码

问题链条：
训练数据只覆盖部分 (state, action) pairs
  → Q-learning 中 max_a Q(s, a) 可能选到数据外动作
  → 这些动作没有真实样本约束 Q 值
  → Q 值过估计 → 策略失效

核心对策：保守 Q 学习（CQL）、模型不确定性惩罚（MOPO / MOReL）、不确定性降权（UWAC）、行为正则化。详见第四节。

2.3 Transition OOD：转移动态偏移

问题描述 ：环境的状态转移函数发生变化，即 P train ( s ′ ∣ s , a ) ≠ P test ( s ′ ∣ s , a ) P_{\text{train}}(s' \mid s, a) \neq P_{\text{test}}(s' \mid s, a) Ptrain(s′∣s,a)=Ptest(s′∣s,a)。

核心挑战 ：Transition OOD 往往是最隐蔽且最危险的一类------单看当前状态可能完全正常，只有观察"做了动作 a a a 之后到达的 s ′ s' s′ 是否符合预期"才能发现问题。

典型场景：机器人关节磨损导致动作响应变慢、无人车遇到湿滑路面、工业控制系统负载突变、仿真到真实部署的 sim-to-real gap。

检测信号：dynamics model prediction error、ensemble dynamics variance、next-state likelihood、temporal prediction residual。

2.4 Trajectory OOD：轨迹级分布偏移

问题描述：异常不是单个状态能看出来的，需要观察一段交互序列的整体趋势。

核心挑战：需要把时序交互序列转换成可用于异常检测的特征表示，且不能引入过大的检测延迟。

text 复制代码

trajectory = [(s₁, a₁, r₁), (s₂, a₂, r₂), ..., (sₜ, aₜ, rₜ)]
features = temporal_statistics(trajectory)   # 时序统计特征
score = anomaly_detector(features)           # 异常打分

典型场景：单个状态看起来正常但连续变化趋势异常、agent 逐渐漂移进入失败区域、动作频率和奖励波动逐渐偏离训练轨迹。

小结：四类 OOD 的检测难度递增------State OOD 最直观，Trajectory OOD 最需要上下文。实际系统中它们经常同时存在，需要组合多种检测器。

三、六类 OOD 检测方法：原理、代码与 RL 适用性

3.1 基于距离的方法（Mahalanobis / kNN）

问题描述：在特征空间中度量新样本与训练分布的距离，距离越大越可能 OOD。

核心方法：Mahalanobis 距离考虑特征协方差，比欧氏距离更适合多维分布：

D M ( x ) = ( x − μ ) T Σ − 1 ( x − μ ) D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} DM(x)=(x−μ)TΣ−1(x−μ)

仓库	框架	核心方法	论文来源	代码状态
pokaxpoka/deep_Mahalanobis_detector	PyTorch	多层特征 Mahalanobis + 输入预处理	Lee et al., NeurIPS 2018	✅
deeplearning-wisc/knn-ood	PyTorch	kNN distance on embeddings	Sun et al., ICML 2022	✅
mueller-mp/maha-norm	PyTorch	Relative Mahalanobis distance	Mueller et al.	✅
haoqiwang/vim	PyTorch	ViM: Virtual-logit Matching	Wang et al., CVPR 2022	✅

RL 适用性 ：适合 State OOD；对低维连续状态（如 MuJoCo 关节角度）效果好，高维图像观测需先通过神经网络提取 embedding。

定位区别：

deep_Mahalanobis_detector 是该方向的经典基线，引用量最高
knn-ood 放松了高斯假设，对非线性分布更鲁棒
vim 是 2022 年的改进方法，在视觉任务上表现优于原始 Mahalanobis

3.2 基于重构的方法（Autoencoder / VAE）

问题描述：假设模型在训练分布上能较好重构输入，在 OOD 输入上重构误差更大。

核心方法：

text 复制代码

训练阶段：用 in-distribution 数据训练 autoencoder / VAE
检测阶段：reconstruction_error = ||x - decoder(encoder(x))||
         如果 error > threshold → 判为 OOD

仓库	框架	核心方法	论文来源	代码状态
CPS-research-group/CPS-NTU-Public	PyTorch	轻量 VAE 嵌入式 OOD 检测	Duckietown 机器人平台	✅
SeldonIO/alibi-detect	TensorFlow/PyTorch	VAE / AE OOD detector + 漂移检测	Seldon 开源	✅
Jingkang50/OpenOOD	PyTorch	含 AE/VAE 在内的 30+ OOD 方法基准	Yang et al., NeurIPS 2022	✅

RL 适用性 ：适合 State OOD（尤其是视觉 RL）；VAE 的 latent space 更结构化，可同时利用重构误差和 KL 散度作为 OOD 信号。可扩展到 Transition OOD（重构 next-state）。

实践提示：VAE 比普通 AE 更推荐。但需注意------高容量模型可能也能重构 OOD 样本（"过于万能的解码器"问题），因此阈值校准至关重要。

3.3 基于集成的方法（Ensemble Uncertainty）

问题描述：训练多个模型，用预测分歧程度衡量不确定性------分歧大则说明对该输入不熟悉。

核心挑战：在 RL 中，ensemble 可以作用于不同层面的模型：

模型类型	不确定性信号	对应检测
Q ensemble	Q 值方差	Action OOD / State OOD
Policy ensemble	动作分布差异	State OOD
Dynamics ensemble	next-state 预测方差	Transition OOD
Value ensemble	value estimate variance	State OOD

仓库	框架	核心方法	论文来源	代码状态
osband/bsuite	TF/JAX	Bootstrapped DQN + 不确定性基准	Osband et al., NeurIPS 2019	✅
kchua/handful-of-trials	TensorFlow	PETS: 概率集成动力学模型	Chua et al., NeurIPS 2018	✅
facebookresearch/mbrl-lib	PyTorch	模块化 MBRL 库，含 ensemble uncertainty	Pineda et al., arXiv 2021	✅
jannerm/mbpo	PyTorch	MBPO: dynamics ensemble + 短视 rollout	Janner et al., NeurIPS 2019	✅

方法亮点 ：RL 本身就常用 ensemble（如 SAC 的 twin Q、MOPO 的 dynamics ensemble），可以 几乎零成本地 复用已有模型获得不确定性信号，是 RL 中最实用的不确定性估计方法。

定位区别：

bsuite 提供标准化基准，适合系统评估 uncertainty-aware agent
handful-of-trials（PETS）是 model-based RL + ensemble 的经典起点
mbrl-lib 是 Meta 出品的模块化库，适合快速搭建 dynamics ensemble 实验
mbpo 展示了如何利用 ensemble 方差做短视 rollout 截断

3.4 基于策略输出的方法（Policy Entropy / Max Probability）

问题描述：直接观察策略网络输出的统计信号，不需要额外模型。

核心方法：

text 复制代码

max_prob = max_a π(a | s)                    # 最大动作概率
entropy  = -Σ π(a | s) log π(a | s)         # 策略熵

max_prob 越低 / entropy 越高 → 策略越"犹豫"

维度	评价
优点	计算零开销、不需要额外模型、适合离散动作空间
缺点	低 entropy ≠ 可靠------神经网络在 OOD 输入上也可能输出极高置信度
RL 适用性	仅作辅助信号，不应作为唯一的 OOD 检测标准

⚠️ 重要警告 ：Policy entropy 是最容易获得但 最不可靠 的 OOD 信号。过度依赖它是 RL OOD 检测中最常见的错误之一。

3.5 基于 Conformal Prediction 的方法

问题描述 ：把任意不确定性分数转成带 统计保证 的阈值，而不是凭直觉设一个 magic number。

核心方法：

text 复制代码

1. 定义 nonconformity score（可以是上述任何方法的打分）
2. 在 calibration set 上计算 score 分布
3. 取指定分位数（如 95%）作为阈值
4. 部署时超过阈值则判为异常

仓库	框架	核心方法	论文来源	代码状态
valeman/awesome-conformal-prediction	---	Conformal Prediction 论文/代码合集	社区维护	✅
aangelopoulos/conformal-prediction	Python	实用 conformal prediction 教程 + 代码	Angelopoulos & Bates, ACM 2023	✅

RL 适用性 ：Conformal Prediction 不是一种新的检测方法，而是一种 校准框架------把任意 OOD score 转化为有统计意义的阈值。适合安全关键系统（需要声称"我有 95% 的信心认为当前状态正常"）。

相关 RL 论文（暂无独立公开仓库）：

论文	来源	特点
Conformal Prediction for Safe Reinforcement Learning	2024	用 conformal 阈值做安全约束
Conformalized Model Predictive Control	L4DC 2024	conformal + MPC 安全控制
Conformal Action Modeling in Multi-Agent RL	2024	多智能体场景下的 conformal 动作建模

3.6 基于轨迹级时序分析的方法

问题描述：将 agent 的交互序列视为时间序列，提取时序统计特征后用异常检测器打分。

核心挑战：需要在"足够长的窗口"和"足够小的检测延迟"之间权衡。

仓库	框架	核心方法	论文来源	代码状态
LinasNas/DEXTER	Python	轨迹时序特征 + Isolation Forest	Nasvytis et al., 2024	✅
modanesh/anomalous_rl_envs	Python	RL-relevant dynamics shift benchmark	Danesh et al., NeurIPS Workshop 2022	✅
modanesh/recurrent_implicit_quantile_networks	PyTorch	RIQN 时序预测误差作为异常信号	Danesh et al.	✅

方法亮点：

DEXTER 是当前 RL 轨迹级 OOD 检测最完整的开源实现，提供了 benchmark 构造方法 + 多种 detector 对比
anomalous_rl_envs 提供了在 MuJoCo 环境上修改物理参数（重力、摩擦、质量）构造 dynamics shift 的标准方法
RIQN 用 recurrent network 的预测误差作为异常信号，适合长序列检测

四、离线强化学习中的 OOD 问题（专题）

离线 RL 是 OOD 问题最突出的场景------agent 只能使用固定数据集 D = { ( s , a , r , s ′ ) } D = \{(s, a, r, s')\} D={(s,a,r,s′)} 训练，如果策略选择了数据集外的动作，Q 函数没有真实反馈约束，极易产生过估计。

以下方法本质上解决同一个问题：不让 agent 过度信任训练数据没有覆盖的区域，但策略不同。

仓库	框架	核心方法	论文来源	代码状态
aviralkumar2907/CQL	PyTorch	保守 Q-Learning：压低 OOD 动作 Q 值	Kumar et al., NeurIPS 2020	✅
tianheyu927/mopo	PyTorch	MOPO：dynamics ensemble 方差作为 reward penalty	Yu et al., NeurIPS 2020	✅
SwapnilPande/MOReL	PyTorch	MOReL：高不确定区域 → 悲观吸收状态	Kidambi et al., NeurIPS 2020	✅
apple/ml-uwac	PyTorch	UWAC：对高不确定 (s,a) 降低训练权重	Wu et al., ICML 2021	✅
ikostrikov/implicit_q_learning	PyTorch/JAX	IQL：用 expectile regression 避免显式选数据外动作	Kostrikov et al., ICLR 2022	✅
Zhendong-Wang/Diffusion-Policies-for-Offline-RL	PyTorch	Diffusion Policy：在数据流形上生成动作	Wang et al., NeurIPS 2023	✅
takuseno/d3rlpy	PyTorch	统一库：CQL/IQL/BCQ/BEAR/TD3+BC 等	Seno & Imai	✅
corl-team/CORL	PyTorch	Clean 单文件实现：CQL/IQL/AWAC/SAC-N/EDAC	CORL team	✅
yihaosun1124/OfflineRL-Kit	PyTorch	模块化库：含 MOPO/COMBO/CQL/IQL/MCQ	Sun et al.	✅

这几个仓库的定位区别：

CQL / MOPO / MOReL / UWAC / IQL 是各方法的 原作者官方实现，适合论文复现和深入理解
d3rlpy 是最全面的统一库，2024-2025 年仍在活跃维护，推荐作为实验主力框架
CORL 每个算法一个文件，代码极简，适合 阅读源码学习原理
OfflineRL-Kit 侧重 model-based 方法（MOPO / COMBO），如果研究 dynamics uncertainty 优先选它
Diffusion Policy 代表最新方向------用扩散模型在数据流形上采样动作，从源头绕过 OOD 问题

关键机制对比：

方法	应对 OOD 的核心策略	优势	局限
CQL	在训练目标中加正则项，压低 OOD 动作的 Q 值	简单有效、无需动力学模型	过于保守时性能下降
MOPO	dynamics ensemble 方差大 → reward 减 penalty	有原理性保证	需要训练 dynamics model
MOReL	高不确定区域建模为悲观吸收状态	保守性有理论保证	悲观程度难调
UWAC	对 ( s , a ) (s,a) (s,a) 的训练权重按不确定性降权	软性处理、不一刀切	不确定性估计本身需要可靠
IQL	expectile regression，根本不对数据外动作求 max	实现简洁、性能强	可能过于保守
Diffusion	在数据流形上采样，天然 in-distribution	从源头避免 OOD	推理速度较慢

五、通用 OOD 检测工具库

以上研究的复现和工程化依赖统一的工具库和基准，以下是推荐的公共基础：

仓库	框架	定位	支持范围
kkirchheim/pytorch-ood	PyTorch	通用 OOD detector + 评估指标	Mahalanobis / Energy / ODIN / kNN 等 20+ 方法
Jingkang50/OpenOOD	PyTorch	OOD benchmark 和方法集合	30+ 方法、统一评估框架、预训练模型
SeldonIO/alibi-detect	TF/PyTorch	异常检测 + 漂移检测 + OOD 检测	Drift / Outlier / Adversarial 三大类
DLR-RM/stable-baselines3	PyTorch	强化学习训练框架	PPO / SAC / DQN 等标准 RL 算法
vwxyzjn/cleanrl	PyTorch	单文件 RL 算法实现	每个算法一个文件，适合学习和修改
Farama-Foundation/Minari	Python	离线 RL 数据集标准	Gym 兼容，标准化数据格式

六、选型指南：如何根据场景选择检测方法

复制代码

你的检测目标是什么？
│
├─ State OOD（状态是否偏离训练分布）
│   ├─ 低维连续状态（如 MuJoCo 关节角度）
│   │   └─ 推荐：Mahalanobis distance（简单快速）
│   └─ 高维图像观测（如 Atari、摄像头）
│       └─ 推荐：VAE reconstruction error
│
├─ Action OOD（动作是否在数据支持范围内）
│   └─ 离线 RL 训练阶段
│       ├─ 需要统一框架 → d3rlpy（含 CQL/IQL/BCQ 等）
│       ├─ 需要 model-based → OfflineRL-Kit（含 MOPO/COMBO）
│       └─ 需要最新方法 → Diffusion Policy
│
├─ Transition OOD（环境动力学是否变化）
│   └─ 推荐：Dynamics ensemble variance
│       ├─ 快速搭建 → mbrl-lib
│       ├─ 标准 benchmark → anomalous_rl_envs
│       └─ 需要统计保证 → Conformal Prediction 校准
│
└─ Trajectory OOD（轨迹序列整体是否异常）
    └─ 推荐：DEXTER（轨迹时序特征 + Isolation Forest）

七、一个通用实现流程

7.1 流程总览

text 复制代码

训练阶段：
  1. 收集 in-distribution trajectories
  2. 提取 state / action / transition / trajectory features
  3. 训练或拟合 OOD detector（如 Mahalanobis、AE、Ensemble）
  4. 在 validation set 上校准 threshold（推荐 conformal quantile）

部署阶段：
  1. 观察当前 state
  2. 提取特征
  3. 计算 OOD score
  4. 判断是否超过 threshold
  5. 若 OOD → 触发保守策略 / 报警 / 安全控制（详见第 2 篇）

7.2 示意代码

python 复制代码

import numpy as np

class OODMonitor:
    """通用 OOD 检测监视器"""
    
    def __init__(self, detector, threshold):
        self.detector = detector
        self.threshold = threshold
        self.history = []
    
    def score(self, features):
        return self.detector.score(features)
    
    def is_ood(self, features):
        s = self.score(features)
        self.history.append({"score": s, "is_ood": s > self.threshold})
        return s > self.threshold


def rl_step_with_ood_monitor(agent, env, monitor, safe_policy):
    """一步 RL 交互，带 OOD 检测"""
    state = env.observe()
    features = extract_features(state)
    ood_score = monitor.score(features)
    
    if monitor.is_ood(features):
        action = safe_policy(state)
        source = "safe_policy"
    else:
        action = agent.act(state)
        source = "rl_agent"
    
    next_state, reward, done, info = env.step(action)
    
    metadata = {
        "source": source,
        "ood_score": ood_score,
        "state": state,
        "action": action,
    }
    return next_state, reward, done, metadata

这里的 safe_policy 可以是规则策略、保守控制器或降级模式。关于检测之后如何决策，详见本系列第 2 篇。

八、研究趋势与技术演进

演进方向	早期方案	近期方案（2023-2025）	核心进步
检测粒度	单状态 OOD	轨迹级 + 多粒度组合（DEXTER, MOOD）	从"点检测"到"序列检测"
离线 RL 中的 OOD 处理	行为克隆约束	CQL → IQL → Diffusion Policy	从"约束策略"到"在数据流形上采样"
不确定性估计	单一 dropout	Deep Ensemble → Hypermodel / Epinet	从近似贝叶斯到高效参数化
阈值设定	手动调参	Conformal Prediction 统计校准	从"拍脑袋"到"有统计保证"
检测目标	通用 OOD	Task-relevant OOD（与任务风险对齐）	不再检测所有偏移，只检测影响决策的偏移
检测与决策的集成	检测和策略分离	OOD-aware decision gate（见第 2 篇）	检测结果直接驱动策略切换

九、参考文献

Hendrycks, D. & Gimpel, K. (2017). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. ICLR.
Lee, K. et al. (2018). A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks. NeurIPS.
Liu, W. et al. (2020). Energy-based Out-of-distribution Detection. NeurIPS.
Nasvytis, L. et al. (2024). Rethinking Out-of-Distribution Detection for Reinforcement Learning (DEXTER).
Danesh, M. et al. (2022). Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and Results. NeurIPS Workshop.
Kumar, A. et al. (2020). Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS.
Yu, T. et al. (2020). MOPO: Model-based Offline Policy Optimization. NeurIPS.
Kidambi, R. et al. (2020). MOReL: Model-Based Offline Reinforcement Learning. NeurIPS.
Wu, Y. et al. (2021). Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning. ICML.
Kostrikov, I. et al. (2022). Offline Reinforcement Learning with Implicit Q-Learning. ICLR.
Wang, Z. et al. (2023). Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning. NeurIPS.
Sun, Y. et al. (2022). Out-of-Distribution Detection with Deep Nearest Neighbors. ICML.
Chua, K. et al. (2018). Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models. NeurIPS.
Angelopoulos, A. & Bates, S. (2023). Conformal Prediction: A Gentle Introduction. ACM.
Yang, J. et al. (2022). OpenOOD: Benchmarking Generalized Out-of-Distribution Detection. NeurIPS.
Osband, I. et al. (2019). Behaviour Suite for Reinforcement Learning. NeurIPS.

持续追踪新仓库 ：
github.com/topics/out-of-distribution-detection · github.com/topics/offline-reinforcement-learning · github.com/topics/uncertainty-estimation · paperswithcode.com/task/out-of-distribution-detection