【论文阅读】AWR:Simple and scalable off-policy RL

快速了解部分

基础信息(英文):

  1. 题目: ADVANTAGE-WEIGHTED REGRESSION: SIMPLE AND SCALABLE OFF-POLICY REINFORCEMENT LEARNING
  2. 时间:2019.10
  3. 机构:University of California, Berkeley
  4. 3个英文关键词: off-policy reinforcement learning, advantage-weighted regression, supervised learning

1句话通俗总结本文干了什么事情

把强化学习策略更新变成两个标准监督学习步骤:先回归拟合价值函数,再用advantage加权回归拟合策略,简单有效且支持off-policy。

研究痛点:现有研究不足 / 要解决的具体问题

  • Policy gradient类方法不稳定、on-policy、样本效率低
  • Q-function类off-policy方法实现复杂,需大量trick稳定训练
  • 简单回归类方法(如RWR)在神经网络近似下效果差,且难以利用off-policy数据

核心方法:关键技术、模型或研究设计(简要)

  • 策略更新 = weighted supervised regression,权重为 exp(advantage/β)
  • 价值函数用TD(λ)回归拟合,降低方差
  • Experience replay + 单价值函数拟合混合策略baseline,支持off-policy
  • 固定β + 权重裁剪,简化实现并防止梯度爆炸

深入了解部分

作者想要表达什么

强化学习不一定需要复杂算法,通过合理的约束策略优化推导+简单工程改进,纯监督学习范式也能实现高效off-policy RL。

相比前人创新在哪里

  • 用advantage替代return作为权重(关键!),引入baseline消除状态价值偏差
  • 将on-policy的RWR扩展为off-policy,通过replay buffer建模混合策略分布
  • 用单个价值函数拟合混合策略的加权平均baseline,避免多价值函数不稳定
  • 固定超参+权重裁剪,大幅简化实现,无需自适应调β

解决方法/算法的通俗解释

想象你在学打游戏:先估计"当前局面值多少分"(价值函数),然后回顾历史操作,给那些"比预期表现更好"的操作打高分,下次遇到类似局面就更倾向于模仿这些高分操作。AWR就是把这个过程变成两个标准的监督学习任务。

解决方法的具体做法

  1. 收集轨迹存入FIFO replay buffer D
  2. 价值函数更新:最小化 ∥R^D_s,a - V(s)∥²,R用TD(λ)估计
  3. 策略更新:最大化 Elogπ(a\|s) × exp((R\^D_s,a - V\^D(s))/β),即advantage加权MLE
  4. 工程技巧:均匀采样state、权重裁剪ω_max=20、固定β=0.05

基于前人的哪些方法

  • Reward-Weighted Regression (RWR):监督回归式策略更新框架
  • 约束策略优化推导:类似REPS的KL约束+Lagrangian求解
  • Experience replay + TD(λ):标准off-policy RL工程实践

实验设置、数据、评估方式、结论

  • 任务:OpenAI Gym连续/离散控制 + 高维角色运动模仿(34 DoF humanoid, 82 DoF dog)
  • 对比:TRPO/PPO(on-policy), DDPG/TD3/SAC(off-policy), RWR(基线)
  • 评估:最终平均return ± 标准差,5 seeds
  • 结论:AWR性能与SAC/TD3相当,实现更简单;在纯静态数据集off-policy学习场景优于多数方法;消融实验验证advantage权重、baseline、replay buffer均为关键组件

提到的同类工作

  • RWR / REPS:EM或约束优化推导的回归式策略搜索
  • MPO:REPS的deep RL变种,partial EM + Retrace(λ)
  • LAWER:advantage加权Fitted Q-Iteration
  • SAC/TD3:soft update + off-policy correction的actor-critic方法

和本文相关性最高的3个文献

  1. Peters & Schaal, 2007 - Reward-Weighted Regression (RWR)
  2. Peters et al., 2010 - Relative Entropy Policy Search (REPS)
  3. Abdolmaleki et al., 2018 - Maximum a Posteriori Policy Optimisation (MPO)
相关推荐
Biomamba生信基地8 小时前
空间图谱+注释工具= 《ADVANCED SCIENCE》
论文阅读·生物信息学·单细胞分析·空间转录组·细胞图谱
c76910 小时前
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional Coevolution
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
科研小刘带你玩学术11 小时前
【科研快讯】KAIST突破性研究:让机器人“读懂“人类意图——VOTP算法开启Physical AI新纪元
论文·强化学习·机器人视觉·physical ai·人类意图识别·reward function
StfinnWu1 天前
论文阅读:Spatial Frequency Modulation Network for EfficientImage Dehazing
论文阅读
Rocky Ding*2 天前
Token Merging for Fast Stable Diffusion:一篇读懂 Stable Diffusion 的免训练加速机制
论文阅读·人工智能·深度学习·机器学习·stable diffusion·aigc·ai-native
大模型最新论文速读2 天前
小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升
论文阅读·人工智能·深度学习·机器学习·缓存·自然语言处理
传说故事2 天前
【论文阅读】DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION
论文阅读·人工智能·机器人·具身智能
小马哥crazymxm2 天前
Arxiv论文周选 (2026-W23)
论文阅读·人工智能·科技
大模型最新论文速读2 天前
06-10 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
传说故事2 天前
【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试
论文阅读·人工智能·具身智能·世界模型