【论文阅读】AWR:Simple and scalable off-policy RL

快速了解部分

基础信息(英文):

  1. 题目: ADVANTAGE-WEIGHTED REGRESSION: SIMPLE AND SCALABLE OFF-POLICY REINFORCEMENT LEARNING
  2. 时间:2019.10
  3. 机构:University of California, Berkeley
  4. 3个英文关键词: off-policy reinforcement learning, advantage-weighted regression, supervised learning

1句话通俗总结本文干了什么事情

把强化学习策略更新变成两个标准监督学习步骤:先回归拟合价值函数,再用advantage加权回归拟合策略,简单有效且支持off-policy。

研究痛点:现有研究不足 / 要解决的具体问题

  • Policy gradient类方法不稳定、on-policy、样本效率低
  • Q-function类off-policy方法实现复杂,需大量trick稳定训练
  • 简单回归类方法(如RWR)在神经网络近似下效果差,且难以利用off-policy数据

核心方法:关键技术、模型或研究设计(简要)

  • 策略更新 = weighted supervised regression,权重为 exp(advantage/β)
  • 价值函数用TD(λ)回归拟合,降低方差
  • Experience replay + 单价值函数拟合混合策略baseline,支持off-policy
  • 固定β + 权重裁剪,简化实现并防止梯度爆炸

深入了解部分

作者想要表达什么

强化学习不一定需要复杂算法,通过合理的约束策略优化推导+简单工程改进,纯监督学习范式也能实现高效off-policy RL。

相比前人创新在哪里

  • 用advantage替代return作为权重(关键!),引入baseline消除状态价值偏差
  • 将on-policy的RWR扩展为off-policy,通过replay buffer建模混合策略分布
  • 用单个价值函数拟合混合策略的加权平均baseline,避免多价值函数不稳定
  • 固定超参+权重裁剪,大幅简化实现,无需自适应调β

解决方法/算法的通俗解释

想象你在学打游戏:先估计"当前局面值多少分"(价值函数),然后回顾历史操作,给那些"比预期表现更好"的操作打高分,下次遇到类似局面就更倾向于模仿这些高分操作。AWR就是把这个过程变成两个标准的监督学习任务。

解决方法的具体做法

  1. 收集轨迹存入FIFO replay buffer D
  2. 价值函数更新:最小化 ∥R^D_s,a - V(s)∥²,R用TD(λ)估计
  3. 策略更新:最大化 E[logπ(a|s) × exp((R^D_s,a - V^D(s))/β)],即advantage加权MLE
  4. 工程技巧:均匀采样state、权重裁剪ω_max=20、固定β=0.05

基于前人的哪些方法

  • Reward-Weighted Regression (RWR):监督回归式策略更新框架
  • 约束策略优化推导:类似REPS的KL约束+Lagrangian求解
  • Experience replay + TD(λ):标准off-policy RL工程实践

实验设置、数据、评估方式、结论

  • 任务:OpenAI Gym连续/离散控制 + 高维角色运动模仿(34 DoF humanoid, 82 DoF dog)
  • 对比:TRPO/PPO(on-policy), DDPG/TD3/SAC(off-policy), RWR(基线)
  • 评估:最终平均return ± 标准差,5 seeds
  • 结论:AWR性能与SAC/TD3相当,实现更简单;在纯静态数据集off-policy学习场景优于多数方法;消融实验验证advantage权重、baseline、replay buffer均为关键组件

提到的同类工作

  • RWR / REPS:EM或约束优化推导的回归式策略搜索
  • MPO:REPS的deep RL变种,partial EM + Retrace(λ)
  • LAWER:advantage加权Fitted Q-Iteration
  • SAC/TD3:soft update + off-policy correction的actor-critic方法

和本文相关性最高的3个文献

  1. Peters & Schaal, 2007 - Reward-Weighted Regression (RWR)
  2. Peters et al., 2010 - Relative Entropy Policy Search (REPS)
  3. Abdolmaleki et al., 2018 - Maximum a Posteriori Policy Optimisation (MPO)
相关推荐
传说故事2 小时前
【论文阅读】通过homeostasis RL学习合成综合机器人行为
论文阅读·人工智能·机器人·具身智能
数智工坊2 小时前
【VarifocalNet(VFNet)论文阅读】:IoU-aware稠密目标检测,把定位质量塞进分类得分
论文阅读·人工智能·深度学习·目标检测·计算机视觉·分类·cnn
STLearner1 天前
AI论文速读 | QuitoBench:支付宝高质量开源时间序列预测基准测试集
大数据·论文阅读·人工智能·深度学习·学习·机器学习·开源
数智工坊1 天前
【Anchor DETR论文阅读】:基于锚点查询设计的Transformer检测器,50epoch收敛且速度精度双升
论文阅读·深度学习·transformer
Narrastory1 天前
Note:强化学习(五)
人工智能·深度学习·强化学习
数智工坊1 天前
【DAB-DETR论文阅读】:动态锚框作为更优查询,彻底解决DETR训练收敛慢难题
网络·论文阅读·人工智能·深度学习·cnn
DuHz1 天前
论文精读:大语言模型 (Large Language Models, LLM) —— 一项调查
论文阅读·人工智能·深度学习·算法·机器学习·计算机视觉·语言模型
锅挤2 天前
来一篇儿:《Saliency Attack: Towards Imperceptible Black-box Adversarial Attack》
论文阅读
盼小辉丶2 天前
PyTorch强化学习实战(3)——Gymnasium API扩展功能
人工智能·pytorch·深度学习·强化学习