【论文阅读】AWR：Simple and scalable off-policy RL

传说故事2026-04-29 9:35

快速了解部分

基础信息（英文）：

题目: ADVANTAGE-WEIGHTED REGRESSION: SIMPLE AND SCALABLE OFF-POLICY REINFORCEMENT LEARNING
时间:2019.10
机构:University of California, Berkeley
3个英文关键词: off-policy reinforcement learning, advantage-weighted regression, supervised learning

1句话通俗总结本文干了什么事情

把强化学习策略更新变成两个标准监督学习步骤：先回归拟合价值函数，再用advantage加权回归拟合策略，简单有效且支持off-policy。

研究痛点：现有研究不足 / 要解决的具体问题

Policy gradient类方法不稳定、on-policy、样本效率低
Q-function类off-policy方法实现复杂，需大量trick稳定训练
简单回归类方法（如RWR）在神经网络近似下效果差，且难以利用off-policy数据

核心方法：关键技术、模型或研究设计（简要）

策略更新 = weighted supervised regression，权重为 exp(advantage/β)
价值函数用TD(λ)回归拟合，降低方差
Experience replay + 单价值函数拟合混合策略baseline，支持off-policy
固定β + 权重裁剪，简化实现并防止梯度爆炸

深入了解部分

作者想要表达什么

强化学习不一定需要复杂算法，通过合理的约束策略优化推导+简单工程改进，纯监督学习范式也能实现高效off-policy RL。

相比前人创新在哪里

用advantage替代return作为权重（关键！），引入baseline消除状态价值偏差
将on-policy的RWR扩展为off-policy，通过replay buffer建模混合策略分布
用单个价值函数拟合混合策略的加权平均baseline，避免多价值函数不稳定
固定超参+权重裁剪，大幅简化实现，无需自适应调β

解决方法/算法的通俗解释

想象你在学打游戏：先估计"当前局面值多少分"（价值函数），然后回顾历史操作，给那些"比预期表现更好"的操作打高分，下次遇到类似局面就更倾向于模仿这些高分操作。AWR就是把这个过程变成两个标准的监督学习任务。

解决方法的具体做法

收集轨迹存入FIFO replay buffer D
价值函数更新：最小化 ∥R^D_s,a - V(s)∥²，R用TD(λ)估计
策略更新：最大化 E[logπ(a|s) × exp((R^D_s,a - V^D(s))/β)]，即advantage加权MLE
工程技巧：均匀采样state、权重裁剪ω_max=20、固定β=0.05

基于前人的哪些方法

Reward-Weighted Regression (RWR)：监督回归式策略更新框架
约束策略优化推导：类似REPS的KL约束+Lagrangian求解
Experience replay + TD(λ)：标准off-policy RL工程实践

实验设置、数据、评估方式、结论

任务：OpenAI Gym连续/离散控制 + 高维角色运动模仿（34 DoF humanoid, 82 DoF dog）
对比：TRPO/PPO（on-policy）, DDPG/TD3/SAC（off-policy）, RWR（基线）
评估：最终平均return ± 标准差，5 seeds
结论：AWR性能与SAC/TD3相当，实现更简单；在纯静态数据集off-policy学习场景优于多数方法；消融实验验证advantage权重、baseline、replay buffer均为关键组件

提到的同类工作

RWR / REPS：EM或约束优化推导的回归式策略搜索
MPO：REPS的deep RL变种，partial EM + Retrace(λ)
LAWER：advantage加权Fitted Q-Iteration
SAC/TD3：soft update + off-policy correction的actor-critic方法

和本文相关性最高的3个文献

Peters & Schaal, 2007 - Reward-Weighted Regression (RWR)
Peters et al., 2010 - Relative Entropy Policy Search (REPS)
Abdolmaleki et al., 2018 - Maximum a Posteriori Policy Optimisation (MPO)

上一篇：PHP函数如何适配高密度服务器机箱_PHP在紧凑硬件布局优化【操作】

下一篇：PHP源码对声卡有依赖吗_音频硬件无关性说明【方法】

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04用了半年 OpenRouter，我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比 05几个好用的ip纯净度检测网站 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 08【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 09【AI】2026 年具身智能模型和世界模型总结 10codex app每次打开重连5次Reconnecting问题解决