强化学习中的OOD检测:从状态异常到分布偏移

文章目录

    • 关键词
    • 一、问题背景
      • [1.1 监督学习 vs 强化学习中的 OOD](#1.1 监督学习 vs 强化学习中的 OOD)
      • [1.2 为什么不能直接套用监督学习的 OOD 方法](#1.2 为什么不能直接套用监督学习的 OOD 方法)
    • [二、四类 OOD 检测对象](#二、四类 OOD 检测对象)
      • [2.1 State OOD:状态分布偏移](#2.1 State OOD:状态分布偏移)
      • [2.2 Action OOD:动作分布偏移](#2.2 Action OOD:动作分布偏移)
      • [2.3 Transition OOD:转移动态偏移](#2.3 Transition OOD:转移动态偏移)
      • [2.4 Trajectory OOD:轨迹级分布偏移](#2.4 Trajectory OOD:轨迹级分布偏移)
    • [三、六类 OOD 检测方法:原理、代码与 RL 适用性](#三、六类 OOD 检测方法:原理、代码与 RL 适用性)
      • [3.1 基于距离的方法(Mahalanobis / kNN)](#3.1 基于距离的方法(Mahalanobis / kNN))
      • [3.2 基于重构的方法(Autoencoder / VAE)](#3.2 基于重构的方法(Autoencoder / VAE))
      • [3.3 基于集成的方法(Ensemble Uncertainty)](#3.3 基于集成的方法(Ensemble Uncertainty))
      • [3.4 基于策略输出的方法(Policy Entropy / Max Probability)](#3.4 基于策略输出的方法(Policy Entropy / Max Probability))
      • [3.5 基于 Conformal Prediction 的方法](#3.5 基于 Conformal Prediction 的方法)
      • [3.6 基于轨迹级时序分析的方法](#3.6 基于轨迹级时序分析的方法)
    • [四、离线强化学习中的 OOD 问题(专题)](#四、离线强化学习中的 OOD 问题(专题))
    • [五、通用 OOD 检测工具库](#五、通用 OOD 检测工具库)
    • 六、选型指南:如何根据场景选择检测方法
    • 七、一个通用实现流程
      • [7.1 流程总览](#7.1 流程总览)
      • [7.2 示意代码](#7.2 示意代码)
    • 八、研究趋势与技术演进
    • 九、参考文献

摘要 :本文系统梳理强化学习(RL)场景下 Out-of-Distribution(OOD)检测的问题定义、四类检测对象(状态 / 动作 / 转移 / 轨迹)、六类主流检测方法,以及代表论文与可复现的开源代码,帮助研究者和工程师建立一套可操作的 RL OOD 检测知识框架。本文是"强化学习 OOD 与可信决策"系列第 1 篇,侧重 检测 ;第 2 篇侧重检测之后的 决策与行动

关键词

强化学习 OOD Detection Distribution Shift Uncertainty Estimation Mahalanobis Distance Conformal Prediction Offline RL


一、问题背景

1.1 监督学习 vs 强化学习中的 OOD

在监督学习中,OOD 检测通常解决一个问题:当前输入样本是否来自训练分布之外? 例如一个猫狗分类器遇到了医学影像。

但强化学习中的 OOD 问题 更复杂。RL agent 在环境中连续交互,不是做一次静态预测:

text 复制代码
state → action → next_state → reward → next_action → ...

分布偏移可能发生在 多个层面

层次 OOD 表现 典型例子
状态级 State OOD 当前状态偏离训练分布 机器人进入训练中未见过的姿态或地形
动作级 Action OOD 策略选择了训练数据中罕见的动作 离线 RL 中 policy 选出数据集外动作
转移级 Transition OOD 环境动力学发生变化 机器人负载改变、路面摩擦变化
奖励级 Reward OOD 任务目标或奖励函数变化 从速度优先变成安全优先
轨迹级 Trajectory OOD 一段交互序列整体异常 系统逐步进入未见过的状态演化模式

这五个层面构成了 RL OOD 区别于普通 OOD 的核心。

1.2 为什么不能直接套用监督学习的 OOD 方法

差异维度 监督学习 强化学习
输入性质 静态独立样本 时序相关的状态-动作序列
分布来源 单一输入分布 状态、动作、转移、奖励多重分布
反馈机制 有标签、可直接验证 奖励延迟且稀疏
失败后果 单次预测错误 连锁决策失败、安全事故
实时性要求 通常可离线评估 需在线实时检测

因此,RL 场景需要 专门设计 的 OOD 检测方法,而不仅是把图像 OOD detector 搬过来。


二、四类 OOD 检测对象

2.1 State OOD:状态分布偏移

问题描述:训练时 agent 只见过某些状态区域,部署时进入了未覆盖的状态空间。

核心挑战:状态空间通常高维连续,边界不清晰;传感器噪声与真实 OOD 难以区分。

常见原因:环境初始条件变化、传感器噪声或遮挡、外部扰动增加、测试环境参数与训练不同。

直觉理解:把训练阶段见过的所有状态想象成特征空间中的一片"领地",State OOD 就是 agent 走出了这片领地的边界。

适用检测方法:Mahalanobis distance、kNN distance、Autoencoder / VAE reconstruction error、Isolation Forest、Neural network embedding density。

2.2 Action OOD:动作分布偏移

问题描述 :策略选择了训练数据中从未或很少出现过的动作,导致 Q 函数估计不可靠。在 离线强化学习 中最为突出。

核心挑战:Q 函数对 OOD 动作没有真实样本约束,极易产生过估计,形成"自我强化"的错误循环。

text 复制代码
问题链条:
训练数据只覆盖部分 (state, action) pairs
  → Q-learning 中 max_a Q(s, a) 可能选到数据外动作
  → 这些动作没有真实样本约束 Q 值
  → Q 值过估计 → 策略失效

核心对策:保守 Q 学习(CQL)、模型不确定性惩罚(MOPO / MOReL)、不确定性降权(UWAC)、行为正则化。详见第四节。

2.3 Transition OOD:转移动态偏移

问题描述 :环境的状态转移函数发生变化,即 P train ( s ′ ∣ s , a ) ≠ P test ( s ′ ∣ s , a ) P_{\text{train}}(s' \mid s, a) \neq P_{\text{test}}(s' \mid s, a) Ptrain(s′∣s,a)=Ptest(s′∣s,a)。

核心挑战 :Transition OOD 往往是最 隐蔽 且最 危险 的一类------单看当前状态可能完全正常,只有观察"做了动作 a a a 之后到达的 s ′ s' s′ 是否符合预期"才能发现问题。

典型场景:机器人关节磨损导致动作响应变慢、无人车遇到湿滑路面、工业控制系统负载突变、仿真到真实部署的 sim-to-real gap。

检测信号:dynamics model prediction error、ensemble dynamics variance、next-state likelihood、temporal prediction residual。

2.4 Trajectory OOD:轨迹级分布偏移

问题描述:异常不是单个状态能看出来的,需要观察一段交互序列的整体趋势。

核心挑战:需要把时序交互序列转换成可用于异常检测的特征表示,且不能引入过大的检测延迟。

text 复制代码
trajectory = [(s₁, a₁, r₁), (s₂, a₂, r₂), ..., (sₜ, aₜ, rₜ)]
features = temporal_statistics(trajectory)   # 时序统计特征
score = anomaly_detector(features)           # 异常打分

典型场景:单个状态看起来正常但连续变化趋势异常、agent 逐渐漂移进入失败区域、动作频率和奖励波动逐渐偏离训练轨迹。

小结:四类 OOD 的检测难度递增------State OOD 最直观,Trajectory OOD 最需要上下文。实际系统中它们经常同时存在,需要组合多种检测器。


三、六类 OOD 检测方法:原理、代码与 RL 适用性

3.1 基于距离的方法(Mahalanobis / kNN)

问题描述:在特征空间中度量新样本与训练分布的距离,距离越大越可能 OOD。

核心方法:Mahalanobis 距离考虑特征协方差,比欧氏距离更适合多维分布:

D M ( x ) = ( x − μ ) T Σ − 1 ( x − μ ) D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} DM(x)=(x−μ)TΣ−1(x−μ)

仓库 框架 核心方法 论文来源 代码状态
pokaxpoka/deep_Mahalanobis_detector PyTorch 多层特征 Mahalanobis + 输入预处理 Lee et al., NeurIPS 2018
deeplearning-wisc/knn-ood PyTorch kNN distance on embeddings Sun et al., ICML 2022
mueller-mp/maha-norm PyTorch Relative Mahalanobis distance Mueller et al.
haoqiwang/vim PyTorch ViM: Virtual-logit Matching Wang et al., CVPR 2022

RL 适用性 :适合 State OOD;对低维连续状态(如 MuJoCo 关节角度)效果好,高维图像观测需先通过神经网络提取 embedding。

定位区别

  • deep_Mahalanobis_detector 是该方向的经典基线,引用量最高
  • knn-ood 放松了高斯假设,对非线性分布更鲁棒
  • vim 是 2022 年的改进方法,在视觉任务上表现优于原始 Mahalanobis

3.2 基于重构的方法(Autoencoder / VAE)

问题描述:假设模型在训练分布上能较好重构输入,在 OOD 输入上重构误差更大。

核心方法

text 复制代码
训练阶段:用 in-distribution 数据训练 autoencoder / VAE
检测阶段:reconstruction_error = ||x - decoder(encoder(x))||
         如果 error > threshold → 判为 OOD
仓库 框架 核心方法 论文来源 代码状态
CPS-research-group/CPS-NTU-Public PyTorch 轻量 VAE 嵌入式 OOD 检测 Duckietown 机器人平台
SeldonIO/alibi-detect TensorFlow/PyTorch VAE / AE OOD detector + 漂移检测 Seldon 开源
Jingkang50/OpenOOD PyTorch 含 AE/VAE 在内的 30+ OOD 方法基准 Yang et al., NeurIPS 2022

RL 适用性 :适合 State OOD(尤其是视觉 RL);VAE 的 latent space 更结构化,可同时利用重构误差和 KL 散度作为 OOD 信号。可扩展到 Transition OOD(重构 next-state)。

实践提示:VAE 比普通 AE 更推荐。但需注意------高容量模型可能也能重构 OOD 样本("过于万能的解码器"问题),因此阈值校准至关重要。


3.3 基于集成的方法(Ensemble Uncertainty)

问题描述:训练多个模型,用预测分歧程度衡量不确定性------分歧大则说明对该输入不熟悉。

核心挑战:在 RL 中,ensemble 可以作用于不同层面的模型:

模型类型 不确定性信号 对应检测
Q ensemble Q 值方差 Action OOD / State OOD
Policy ensemble 动作分布差异 State OOD
Dynamics ensemble next-state 预测方差 Transition OOD
Value ensemble value estimate variance State OOD
仓库 框架 核心方法 论文来源 代码状态
osband/bsuite TF/JAX Bootstrapped DQN + 不确定性基准 Osband et al., NeurIPS 2019
kchua/handful-of-trials TensorFlow PETS: 概率集成动力学模型 Chua et al., NeurIPS 2018
facebookresearch/mbrl-lib PyTorch 模块化 MBRL 库,含 ensemble uncertainty Pineda et al., arXiv 2021
jannerm/mbpo PyTorch MBPO: dynamics ensemble + 短视 rollout Janner et al., NeurIPS 2019

方法亮点 :RL 本身就常用 ensemble(如 SAC 的 twin Q、MOPO 的 dynamics ensemble),可以 几乎零成本地 复用已有模型获得不确定性信号,是 RL 中最实用的不确定性估计方法。

定位区别

  • bsuite 提供标准化基准,适合系统评估 uncertainty-aware agent
  • handful-of-trials(PETS)是 model-based RL + ensemble 的经典起点
  • mbrl-lib 是 Meta 出品的模块化库,适合快速搭建 dynamics ensemble 实验
  • mbpo 展示了如何利用 ensemble 方差做短视 rollout 截断

3.4 基于策略输出的方法(Policy Entropy / Max Probability)

问题描述:直接观察策略网络输出的统计信号,不需要额外模型。

核心方法

text 复制代码
max_prob = max_a π(a | s)                    # 最大动作概率
entropy  = -Σ π(a | s) log π(a | s)         # 策略熵

max_prob 越低 / entropy 越高 → 策略越"犹豫"
维度 评价
优点 计算零开销、不需要额外模型、适合离散动作空间
缺点 低 entropy ≠ 可靠------神经网络在 OOD 输入上也可能输出极高置信度
RL 适用性 仅作辅助信号,不应作为唯一的 OOD 检测标准

⚠️ 重要警告 :Policy entropy 是最容易获得但 最不可靠 的 OOD 信号。过度依赖它是 RL OOD 检测中最常见的错误之一。


3.5 基于 Conformal Prediction 的方法

问题描述 :把任意不确定性分数转成带 统计保证 的阈值,而不是凭直觉设一个 magic number。

核心方法

text 复制代码
1. 定义 nonconformity score(可以是上述任何方法的打分)
2. 在 calibration set 上计算 score 分布
3. 取指定分位数(如 95%)作为阈值
4. 部署时超过阈值则判为异常
仓库 框架 核心方法 论文来源 代码状态
valeman/awesome-conformal-prediction --- Conformal Prediction 论文/代码合集 社区维护
aangelopoulos/conformal-prediction Python 实用 conformal prediction 教程 + 代码 Angelopoulos & Bates, ACM 2023

RL 适用性 :Conformal Prediction 不是一种新的检测方法,而是一种 校准框架------把任意 OOD score 转化为有统计意义的阈值。适合安全关键系统(需要声称"我有 95% 的信心认为当前状态正常")。

相关 RL 论文(暂无独立公开仓库):

论文 来源 特点
Conformal Prediction for Safe Reinforcement Learning 2024 用 conformal 阈值做安全约束
Conformalized Model Predictive Control L4DC 2024 conformal + MPC 安全控制
Conformal Action Modeling in Multi-Agent RL 2024 多智能体场景下的 conformal 动作建模

3.6 基于轨迹级时序分析的方法

问题描述:将 agent 的交互序列视为时间序列,提取时序统计特征后用异常检测器打分。

核心挑战:需要在"足够长的窗口"和"足够小的检测延迟"之间权衡。

仓库 框架 核心方法 论文来源 代码状态
LinasNas/DEXTER Python 轨迹时序特征 + Isolation Forest Nasvytis et al., 2024
modanesh/anomalous_rl_envs Python RL-relevant dynamics shift benchmark Danesh et al., NeurIPS Workshop 2022
modanesh/recurrent_implicit_quantile_networks PyTorch RIQN 时序预测误差作为异常信号 Danesh et al.

方法亮点

  • DEXTER 是当前 RL 轨迹级 OOD 检测最完整的开源实现,提供了 benchmark 构造方法 + 多种 detector 对比
  • anomalous_rl_envs 提供了在 MuJoCo 环境上修改物理参数(重力、摩擦、质量)构造 dynamics shift 的标准方法
  • RIQN 用 recurrent network 的预测误差作为异常信号,适合长序列检测

四、离线强化学习中的 OOD 问题(专题)

离线 RL 是 OOD 问题最突出的场景------agent 只能使用固定数据集 D = { ( s , a , r , s ′ ) } D = \{(s, a, r, s')\} D={(s,a,r,s′)} 训练,如果策略选择了数据集外的动作,Q 函数没有真实反馈约束,极易产生过估计。

以下方法本质上解决同一个问题:不让 agent 过度信任训练数据没有覆盖的区域,但策略不同。

仓库 框架 核心方法 论文来源 代码状态
aviralkumar2907/CQL PyTorch 保守 Q-Learning:压低 OOD 动作 Q 值 Kumar et al., NeurIPS 2020
tianheyu927/mopo PyTorch MOPO:dynamics ensemble 方差作为 reward penalty Yu et al., NeurIPS 2020
SwapnilPande/MOReL PyTorch MOReL:高不确定区域 → 悲观吸收状态 Kidambi et al., NeurIPS 2020
apple/ml-uwac PyTorch UWAC:对高不确定 (s,a) 降低训练权重 Wu et al., ICML 2021
ikostrikov/implicit_q_learning PyTorch/JAX IQL:用 expectile regression 避免显式选数据外动作 Kostrikov et al., ICLR 2022
Zhendong-Wang/Diffusion-Policies-for-Offline-RL PyTorch Diffusion Policy:在数据流形上生成动作 Wang et al., NeurIPS 2023
takuseno/d3rlpy PyTorch 统一库:CQL/IQL/BCQ/BEAR/TD3+BC 等 Seno & Imai
corl-team/CORL PyTorch Clean 单文件实现:CQL/IQL/AWAC/SAC-N/EDAC CORL team
yihaosun1124/OfflineRL-Kit PyTorch 模块化库:含 MOPO/COMBO/CQL/IQL/MCQ Sun et al.

这几个仓库的定位区别

  • CQL / MOPO / MOReL / UWAC / IQL 是各方法的 原作者官方实现,适合论文复现和深入理解
  • d3rlpy 是最全面的统一库,2024-2025 年仍在活跃维护,推荐作为实验主力框架
  • CORL 每个算法一个文件,代码极简,适合 阅读源码学习原理
  • OfflineRL-Kit 侧重 model-based 方法(MOPO / COMBO),如果研究 dynamics uncertainty 优先选它
  • Diffusion Policy 代表最新方向------用扩散模型在数据流形上采样动作,从源头绕过 OOD 问题

关键机制对比

方法 应对 OOD 的核心策略 优势 局限
CQL 在训练目标中加正则项,压低 OOD 动作的 Q 值 简单有效、无需动力学模型 过于保守时性能下降
MOPO dynamics ensemble 方差大 → reward 减 penalty 有原理性保证 需要训练 dynamics model
MOReL 高不确定区域建模为悲观吸收状态 保守性有理论保证 悲观程度难调
UWAC 对 ( s , a ) (s,a) (s,a) 的训练权重按不确定性降权 软性处理、不一刀切 不确定性估计本身需要可靠
IQL expectile regression,根本不对数据外动作求 max 实现简洁、性能强 可能过于保守
Diffusion 在数据流形上采样,天然 in-distribution 从源头避免 OOD 推理速度较慢

五、通用 OOD 检测工具库

以上研究的复现和工程化依赖统一的工具库和基准,以下是推荐的公共基础:

仓库 框架 定位 支持范围
kkirchheim/pytorch-ood PyTorch 通用 OOD detector + 评估指标 Mahalanobis / Energy / ODIN / kNN 等 20+ 方法
Jingkang50/OpenOOD PyTorch OOD benchmark 和方法集合 30+ 方法、统一评估框架、预训练模型
SeldonIO/alibi-detect TF/PyTorch 异常检测 + 漂移检测 + OOD 检测 Drift / Outlier / Adversarial 三大类
DLR-RM/stable-baselines3 PyTorch 强化学习训练框架 PPO / SAC / DQN 等标准 RL 算法
vwxyzjn/cleanrl PyTorch 单文件 RL 算法实现 每个算法一个文件,适合学习和修改
Farama-Foundation/Minari Python 离线 RL 数据集标准 Gym 兼容,标准化数据格式

六、选型指南:如何根据场景选择检测方法

复制代码
你的检测目标是什么?
│
├─ State OOD(状态是否偏离训练分布)
│   ├─ 低维连续状态(如 MuJoCo 关节角度)
│   │   └─ 推荐:Mahalanobis distance(简单快速)
│   └─ 高维图像观测(如 Atari、摄像头)
│       └─ 推荐:VAE reconstruction error
│
├─ Action OOD(动作是否在数据支持范围内)
│   └─ 离线 RL 训练阶段
│       ├─ 需要统一框架 → d3rlpy(含 CQL/IQL/BCQ 等)
│       ├─ 需要 model-based → OfflineRL-Kit(含 MOPO/COMBO)
│       └─ 需要最新方法 → Diffusion Policy
│
├─ Transition OOD(环境动力学是否变化)
│   └─ 推荐:Dynamics ensemble variance
│       ├─ 快速搭建 → mbrl-lib
│       ├─ 标准 benchmark → anomalous_rl_envs
│       └─ 需要统计保证 → Conformal Prediction 校准
│
└─ Trajectory OOD(轨迹序列整体是否异常)
    └─ 推荐:DEXTER(轨迹时序特征 + Isolation Forest)

七、一个通用实现流程

7.1 流程总览

text 复制代码
训练阶段:
  1. 收集 in-distribution trajectories
  2. 提取 state / action / transition / trajectory features
  3. 训练或拟合 OOD detector(如 Mahalanobis、AE、Ensemble)
  4. 在 validation set 上校准 threshold(推荐 conformal quantile)

部署阶段:
  1. 观察当前 state
  2. 提取特征
  3. 计算 OOD score
  4. 判断是否超过 threshold
  5. 若 OOD → 触发保守策略 / 报警 / 安全控制(详见第 2 篇)

7.2 示意代码

python 复制代码
import numpy as np

class OODMonitor:
    """通用 OOD 检测监视器"""
    
    def __init__(self, detector, threshold):
        self.detector = detector
        self.threshold = threshold
        self.history = []
    
    def score(self, features):
        return self.detector.score(features)
    
    def is_ood(self, features):
        s = self.score(features)
        self.history.append({"score": s, "is_ood": s > self.threshold})
        return s > self.threshold


def rl_step_with_ood_monitor(agent, env, monitor, safe_policy):
    """一步 RL 交互,带 OOD 检测"""
    state = env.observe()
    features = extract_features(state)
    ood_score = monitor.score(features)
    
    if monitor.is_ood(features):
        action = safe_policy(state)
        source = "safe_policy"
    else:
        action = agent.act(state)
        source = "rl_agent"
    
    next_state, reward, done, info = env.step(action)
    
    metadata = {
        "source": source,
        "ood_score": ood_score,
        "state": state,
        "action": action,
    }
    return next_state, reward, done, metadata

这里的 safe_policy 可以是规则策略、保守控制器或降级模式。关于检测之后如何决策,详见本系列第 2 篇。


八、研究趋势与技术演进

演进方向 早期方案 近期方案(2023-2025) 核心进步
检测粒度 单状态 OOD 轨迹级 + 多粒度组合(DEXTER, MOOD) 从"点检测"到"序列检测"
离线 RL 中的 OOD 处理 行为克隆约束 CQL → IQL → Diffusion Policy 从"约束策略"到"在数据流形上采样"
不确定性估计 单一 dropout Deep Ensemble → Hypermodel / Epinet 从近似贝叶斯到高效参数化
阈值设定 手动调参 Conformal Prediction 统计校准 从"拍脑袋"到"有统计保证"
检测目标 通用 OOD Task-relevant OOD(与任务风险对齐) 不再检测所有偏移,只检测影响决策的偏移
检测与决策的集成 检测和策略分离 OOD-aware decision gate(见第 2 篇) 检测结果直接驱动策略切换

九、参考文献

  1. Hendrycks, D. & Gimpel, K. (2017). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. ICLR.
  2. Lee, K. et al. (2018). A Simple Unified Framework for Detecting Out-of-Distribution Samples and Adversarial Attacks. NeurIPS.
  3. Liu, W. et al. (2020). Energy-based Out-of-distribution Detection. NeurIPS.
  4. Nasvytis, L. et al. (2024). Rethinking Out-of-Distribution Detection for Reinforcement Learning (DEXTER).
  5. Danesh, M. et al. (2022). Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and Results. NeurIPS Workshop.
  6. Kumar, A. et al. (2020). Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS.
  7. Yu, T. et al. (2020). MOPO: Model-based Offline Policy Optimization. NeurIPS.
  8. Kidambi, R. et al. (2020). MOReL: Model-Based Offline Reinforcement Learning. NeurIPS.
  9. Wu, Y. et al. (2021). Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning. ICML.
  10. Kostrikov, I. et al. (2022). Offline Reinforcement Learning with Implicit Q-Learning. ICLR.
  11. Wang, Z. et al. (2023). Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning. NeurIPS.
  12. Sun, Y. et al. (2022). Out-of-Distribution Detection with Deep Nearest Neighbors. ICML.
  13. Chua, K. et al. (2018). Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models. NeurIPS.
  14. Angelopoulos, A. & Bates, S. (2023). Conformal Prediction: A Gentle Introduction. ACM.
  15. Yang, J. et al. (2022). OpenOOD: Benchmarking Generalized Out-of-Distribution Detection. NeurIPS.
  16. Osband, I. et al. (2019). Behaviour Suite for Reinforcement Learning. NeurIPS.

持续追踪新仓库
github.com/topics/out-of-distribution-detection · github.com/topics/offline-reinforcement-learning · github.com/topics/uncertainty-estimation · paperswithcode.com/task/out-of-distribution-detection

相关推荐
geneculture1 小时前
《一种智能通信子母机》(申请日 1993.4.7公开号CN1095341A)专利文件的全文汉英双语对照版本+系统点评
人工智能·数据挖掘·哲学与科学统一性·智能通信
树獭非懒1 小时前
LangChain 不是框架,而是一把瑞士军刀
人工智能·程序员·llm
三行数学1 小时前
数学周刊第17期(2026年04月27日-05月03日)12小时攻克42年数学难题:人机深度协作正式步入数学研究
人工智能·数学周刊·三行数学
HQChart1 小时前
HQChart使用教程105-K线图,分时图如何对接AI进行数据分析
人工智能·数据挖掘·数据分析·hqchart·k线图·走势图
AI周红伟1 小时前
周红伟:DeepSeek官方教您如何部署Hermes Agent 和接入 DeepSeek-V4-Pro
人工智能·深度学习·学习·机器学习·copilot·openclaw
Chengbei111 小时前
AI大模型网关存在SQL注入、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·安全·web安全·网络安全·系统安全
java1234_小锋1 小时前
Spring AI 2.0 开发Java Agent智能体 - stream()方法Flux流式响应输出
java·人工智能·spring
方也_arkling1 小时前
【大模型】初步认识RAG
人工智能·python
玩转单片机与嵌入式2 小时前
TinyML应用场景解析:动作识别!
人工智能·单片机·嵌入式硬件·嵌入式ai·ai+嵌入式