体验式强化学习:让模型学会“吃一堑长一智“

体验式强化学习:让模型学会"吃一堑长一智"

一句话总结:论文提出 ERL(Experiential Reinforcement Learning),在强化学习中嵌入"尝试-反思-改进"的显式循环,将稀疏反馈转化为结构化的行为修正,在复杂任务上实现了高达 81% 的性能提升。


📖 开篇:稀疏奖励的困境

强化学习有个老毛病:反馈太稀疏了

想象一下,你让一个机器人学下棋。传统强化学习的做法是:机器人走了一步,环境说"不对,输了",然后呢?机器人只能自己琢磨:是哪一步走错了?是开局的问题还是中盘的问题?它完全不知道。

这就是信用分配问题(Credit Assignment)------当奖励信号稀疏且延迟时,模型必须隐式地推断"失败应该转化为什么样的行为改变"。这个推断过程对大模型来说极其困难。

人类是怎么学习的?我们失败后会反思:"刚才那步棋走得太急了,应该先稳固防守"。这种显式的反思把模糊的"失败"转化成了具体的"改进方向"。

论文作者的想法是:既然人类靠反思学习,为什么不把这个能力教给大模型?


🧠 核心洞察:三种学习范式的对比

论文把现有的学习方法分成三类:

图1:三种学习范式的对比------从直接学习到强化学习再到体验式学习

范式 核心机制 问题
直接学习(SFT) 从正确答案学习 需要高质量标注数据
强化学习(RLVR) 从环境奖励学习 稀疏奖励下难以信用分配
体验式学习(ERL) 从失败反思中学习 将反馈转化为显式修正

传统 RLVR 的问题是:模型拿到一个"0分",只知道"错了",但不知道"错在哪"。

ERL 的思路是:让模型自己生成一份"错题分析",然后用这份分析指导下一次尝试。这就像学生做完试卷后,老师不讲题,但让学生自己写一份"我为什么错了,下次怎么做"的反思报告。


🏗️ ERL 架构:尝试-反思-巩固的三部曲

核心流程

ERL 的训练循环包含四个关键步骤:

图2:ERL 的完整训练流程------首次尝试、自我反思、二次尝试、经验内化

第一步:首次尝试

模型面对任务 xxx,生成初始回答 y(1)y^{(1)}y(1)。环境返回反馈 f(1)f^{(1)}f(1) 和奖励 r(1)r^{(1)}r(1)。

如果奖励够高(r(1)≥τr^{(1)} \geq \taur(1)≥τ),直接进入强化学习更新。如果不够,进入反思环节。

第二步:自我反思

这是 ERL 的核心创新。模型不是盲目重试,而是先生成一份反思 Δ\DeltaΔ:

Δ∼πθ(⋅∣x,y(1),f(1),r(1),m)\Delta \sim \pi_\theta(\cdot \mid x, y^{(1)}, f^{(1)}, r^{(1)}, m)Δ∼πθ(⋅∣x,y(1),f(1),r(1),m)

这里 mmm 是跨周期记忆(Cross-Episode Memory),存储了之前成功的修正模式。模型可以参考"上次类似情况我是怎么改对的"。

第三步:二次尝试

模型利用反思 Δ\DeltaΔ 作为指导,生成改进后的回答 y(2)y^{(2)}y(2):

y(2)∼πθ(⋅∣x,Δ)y^{(2)} \sim \pi_\theta(\cdot \mid x, \Delta)y(2)∼πθ(⋅∣x,Δ)

如果这次成功了,就把反思 Δ\DeltaΔ 存入记忆 mmm,供以后参考。

第四步:经验内化

这是论文的另一个关键设计:把反思引导的成功行为"内化"到基础策略中

通过自蒸馏,训练模型仅根据原始输入 xxx 就能直接输出改进后的回答 y(2)y^{(2)}y(2):

Ldistill(θ)=−E[I(r(2)>0)log⁡πθ(y(2)∣x)]\mathcal{L}{\text{distill}}(\theta) = -\mathbb{E}\left[\mathbb{I}(r^{(2)} > 0) \log \pi\theta(y^{(2)} \mid x)\right]Ldistill(θ)=−E[I(r(2)>0)logπθ(y(2)∣x)]

这意味着:部署时不需要额外的反思步骤,但训练时学到的"改进能力"被保留了下来

为什么不是简单的"重试"?

论文做了一个关键对比:

图3:RLVR 是盲目的"试错-忘记-试错";ERL 是有意识的"试错-反思-改进-内化"

RLVR 的问题在于:每次失败后,模型只是随机尝试另一个方向。上次犯的错误没有被"记住",也没有被"分析"。就像一个人考试,每次都凭感觉蒙,从不看错题。

ERL 强制模型在失败后写"反思报告"。这份报告把模糊的"失败"变成了具体的"哪里错了、怎么改"。这种结构化的修正信号比单纯的奖励信号有价值得多。

门控机制:成功的案例不要乱改

论文还设计了一个门控反思机制 :只有当首次尝试失败(r(1)<τr^{(1)} < \taur(1)<τ)时才触发反思。

这避免了"过度优化"的问题------如果第一次就做对了,强制反思反而可能画蛇添足。这个设计体现了作者对训练稳定性的考量。


🔧 训练方法:GRPO + 跨周期记忆

ERL 使用 GRPO(Group Relative Policy Optimization)作为底层优化器。GRPO 是 DeepSeek 团队提出的强化学习算法,特点是省掉了 Critic Model

传统的 PPO 需要一个价值网络来估计"这个动作好不好",训练成本高。GRPO 的思路是:对同一个问题生成多个候选答案,在组内做相对比较,用组均值和标准差来归一化奖励,计算相对优势。

ERL 在这个基础上做了两件事:

  1. 将反思和二次尝试纳入训练目标:不是只优化首次尝试,而是让整个"尝试-反思-改进"链条都参与梯度更新。

  2. 跨周期记忆:把成功的反思模式存起来,后续训练可以复用。这有点像"错题本"------同样的错误不要犯两次。


🧪 实验结果:复杂任务上碾压式优势

任务设置

论文选了三个具有稀疏奖励特点的任务:

任务 描述 奖励设置
FrozenLake 网格导航,避开洞口走到终点 到达终点得 1.0,否则 0.0
Sokoban 推箱子谜题 解开得 1.0,否则 0.0
HotpotQA 多跳问答,需要检索工具 精确匹配得 1.0,F1≥0.3 给比例奖励

前两个任务的特点是:奖励极度稀疏,模型必须在长序列动作后才能知道结果。这正好测试 ERL 的核心能力------从稀疏反馈中学习。

学习效率对比

图4:ERL 的学习效率显著高于 RLVR,尤其是在 Sokoban 任务上

从训练曲线可以看出:

  • FrozenLake:ERL 收敛更快,最终性能略高
  • HotpotQA:两者差距不大(因为这个任务的反馈相对密集)
  • Sokoban:ERL 完胜,RLVR 几乎学不动

Sokoban 是最难的------需要长视野规划,一步走错可能全局皆输。RLVR 在这种场景下完全迷失,而 ERL 通过反思机制找到了改进路径。

最终性能对比

图5:ERL 在所有任务上均优于 RLVR,Sokoban 上差距最大

模型 任务 RLVR ERL 提升
Qwen3-4B FrozenLake 0.86 0.94 +8%
HotpotQA 0.45 0.56 +11%
Sokoban 0.06 0.87 +81%
Olmo-3-7B FrozenLake 0.39 0.66 +27%
HotpotQA 0.47 0.50 +3%
Sokoban 0.04 0.20 +16%

Sokoban 上的 81% 提升是最惊人的。这说明在需要复杂规划和错误恢复的场景中,结构化反思机制的价值被放大了。

反思前后的性能变化

论文还比较了反思前后(Pre-refl. vs Post-refl.)的性能:

图6:二次尝试(Post-refl.)的性能明显高于首次尝试(Pre-refl.),证明反思确实有效

在 Qwen3-4B 上,反思后的性能在三个任务上分别提升了约 10%、15% 和 60%。这直接证明了反思机制的有效性------它不是白费力气,而是真的帮模型找到了更好的答案。


📊 消融实验:反思和记忆谁更重要?

图7:移除反思导致性能大幅下降,移除记忆影响较小

变体 核心区别 性能影响
ERL(完整版) 反思 + 记忆 最优
ERL w/o Mem. 无跨周期记忆 略有下降
ERL w/o Refl. 无结构化反思(只有重试) 大幅下降

关键发现:

反思比记忆重要得多。

移除记忆后,性能只在小幅下降。但移除反思后,性能暴跌。这说明:单纯的"再试一次"是不够的。模型需要显式的反思来指导改进方向,否则就是盲目重试。


💡 我的观点

这个工作的亮点

1. 直觉清晰:把"吃一堑长一智"算法化

"从失败中学习"是人类的核心学习能力。ERL 把这个过程形式化了:失败 → 反思 → 改进 → 内化。这个框架简洁而有力。

2. 零推理成本的设计

很多反思类方法(如 Reflexion、Self-Refine)在推理时需要多轮迭代,增加了延迟和成本。ERL 通过"内化"步骤,把反思能力蒸馏到基础策略中,部署时不需要额外开销。这是一个工程上很务实的设计。

3. 与 GRPO 的良好兼容

ERL 没有发明新的优化器,而是基于 GRPO 做扩展。这意味着它可以被快速集成到现有的 RL 训练流程中。

需要关注的问题

1. 反思质量的上限

反思的质量取决于模型本身的能力。如果模型对某个领域理解不足,它生成的反思可能也是错的。这就像让一个不懂棋的人写棋谱------反思本身可能误导后续尝试。

论文没有深入讨论"反思错误"的情况。在实际应用中,可能需要引入外部验证机制来检查反思的正确性。

2. 计算成本翻倍

ERL 的训练成本大约是 RLVR 的两倍------每个任务要生成两次尝试加一次反思。虽然论文声称计算量相当(ERL 每次生成 4 个样本,RLVR 生成 10 个),但这种比较是否公平还有待商榷。

3. 记忆的负面效应

消融实验中有个有趣的发现:Olmo-3-7B 在 Sokoban 任务上,无记忆版本反而比完整版略好。作者的解释是:早期不准确的反思被记忆传播后反而阻碍了学习

这提醒我们:记忆是把双刃剑。如果早期的反思质量不高,记忆可能成为"包袱"而非"财富"。引入记忆老化或质量过滤机制可能是必要的。

与其他反思方法的对比

方法 反思时机 推理成本 训练成本
Reflexion 推理时反思
Self-Refine 推理时迭代
ERL 训练时反思

ERL 的定位很清晰:用训练时的计算换取推理时的效率。如果你的应用场景对延迟敏感,ERL 是更好的选择;如果你有充足的推理预算,Reflexion 可能更灵活。

工程落地的思考

如果要落地 ERL,我会关注以下几点:

  1. 反思模板设计:论文没有详细展示反思的格式。在实际应用中,可能需要设计结构化的反思模板(如"错误原因 → 改进策略"),帮助模型生成高质量的反思。

  2. 记忆管理策略:跨周期记忆需要管理。可以考虑引入记忆淘汰机制,删除过时或低质量的反思。

  3. 多轮反思:论文只设计了一次反思。在更复杂的任务中,可能需要多轮反思循环。但这会增加训练复杂度。

  4. 与其他技术的结合:ERL 可以和其他 RL 技术结合,比如奖励塑形(Reward Shaping)、课程学习(Curriculum Learning)等,进一步提升学习效率。


🔗 相关工作对比

方法 核心机制 特点
RLVR 直接从奖励学习 简单但稀疏奖励下效果差
Reflexion 推理时自我反思 提升推理效果但增加延迟
Self-Refine 迭代式自我修正 需要多轮推理
Reward Shaping 设计密集奖励 需要领域知识
ERL 训练时反思 + 内化 零推理成本

ERL 的独特价值在于:它不需要人工设计奖励函数,也不增加推理成本,却能从稀疏反馈中高效学习。


📚 总结

ERL 的核心贡献是:把"反思"从一个推理时的技巧变成了训练时的能力

通过显式的"尝试-反思-改进"循环,模型学会了把模糊的失败信号转化为具体的行为修正。这些修正通过内化蒸馏到基础策略中,在部署时无需额外开销。

用一句话概括:失败不可怕,可怕的是失败了不知道为什么。ERL 让模型学会了写"错题本"。

当强化学习遇到稀疏奖励瓶颈时,显式反思可能是打破僵局的关键。


论文信息

  • 标题:Experiential Reinforcement Learning
  • arXiv:https://arxiv.org/abs/2602.13949
  • 作者:Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao
相关推荐
冬奇Lab2 小时前
一天一个开源项目(第30篇):banana-slides - 基于 nano banana pro 的原生 AI PPT 生成应用
人工智能·开源·aigc
冬奇Lab2 小时前
Plugin 扩展实战:增强 Claude Code 的能力
人工智能·ai编程·claude
大好人ooo2 小时前
企业级LLM评估与测试
人工智能
coding者在努力2 小时前
LangChain简介,最直白的介绍
人工智能·python·语言模型·langchain
福大大架构师每日一题2 小时前
dify 1.13.0——Human-in-the-Loop与工作流执行架构全面升级,释放AI与人的协作潜力
人工智能·架构
文艺倾年2 小时前
【强化学习&SWE】如何无容器化进行强化学习训练
人工智能·分布式·大模型
童园管理札记2 小时前
【记录模板】大班科学小游戏观察记录(盐主题:《会变魔术的盐》)
经验分享·深度学习·职场和发展·学习方法·微信公众平台
ZhengEnCi2 小时前
06. Embedding模型与向量化
人工智能
人机与认知实验室2 小时前
人类智能中依然存在还未被发现的新机制
人工智能