OpenClaw-RL:让AI Agent在对话中自主学习进化
想象一下,你的AI助手每与你互动一次,就自动变得更懂你的偏好------无需额外标注,无需人工干预,仅仅是"在使用中学习"。这正是OpenClaw-RL带来的突破性范式:将每一次对话的"下一状态信号"转化为实时在线学习源,实现Agent的持续进化。
论文标题:OpenClaw-RL: Train Any Agent Simply by Talking
来源:arXiv:2603.10165v1 [cs.CL] + https://arxiv.org/abs/2603.10165
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 AI极客熊 」 即刻免费解锁
文章核心
研究背景
当前AI Agent系统的训练存在一个根本性浪费:每一次交互都会产生"下一状态信号"------用户的回复、工具执行结果、终端输出或GUI状态变化------但现有系统仅将其作为下一轮对话的上下文,而非学习信号。作者敏锐地指出,这些信号实际上蕴含两类宝贵信息:评估性信号(判断动作好坏)和指导性信号(指示应该如何改进)。然而,现有RL系统要么忽略这些信号,要么仅以离线方式利用,无法实现真正的实时在线学习。
研究问题
现有Agent训练面临三大核心缺陷:
- 信号浪费:每一个Agent交互都会生成下一状态信号,但现有agentic RL系统无一将其恢复为实时的在线学习源。
- 标量奖励的信息损失:传统RL方法将丰富的下一状态信息压缩为单一标量奖励,丢失了用户反馈中"应该如何改进"的方向性信息。
- 系统架构瓶颈:现有RL基础设施假设批量数据收集,而非从实时部署中持续学习,无法支持多流异构交互的同时训练。

主要贡献
作者提出了OpenClaw-RL框架,其核心贡献按重要性排序如下:
核心洞察:下一状态信号作为在线学习源。作者发现用户回复、工具输出、测试判决等下一状态信号编码了评估性和指导性两类信息,可被统一恢复为训练信号,适用于个人对话、终端、GUI、SWE、工具调用等所有Agent交互场景。
异步解耦架构。设计了四大完全解耦的异步组件:策略服务(SGLang)、环境托管、PRM评判(SGLang/API)、策略训练(Megatron)。各组件零阻塞依赖,模型服务请求的同时,PRM评判上一轮响应,训练器更新参数------三者互不等待。
双路径信号恢复方法。Binary RL通过PRM将评估性信号转换为密集标量过程奖励;Hindsight-Guided On-Policy Distillation(OPD)从下一状态提取文本提示,构建增强教师上下文,提供token级别的方向性监督。两者结合可实现显著增益。
跨场景实证验证。在个人Agent和通用Agent(终端、GUI、SWE、工具调用)两类场景下全面验证,证明框架的有效性和可扩展性。

方法论精要
问题形式化
OpenClaw-RL将每个交互流形式化为MDP ( S , A , T , r ) (\mathcal{S}, \mathcal{A}, \mathcal{T}, r) (S,A,T,r):状态 s t s_t st为完整对话或环境上下文;动作 a t a_t at为策略 π θ \pi_\theta πθ生成的token序列;转移 T ( s t + 1 ∣ s t , a t ) \mathcal{T}(s_{t+1}|s_t, a_t) T(st+1∣st,at)确定性取决于环境;奖励 r ( a t , s t + 1 ) r(a_t, s_{t+1}) r(at,st+1)通过PRM从下一状态信号推断。
关键洞察在于:标准RLVR仅使用最终结果 o o o作为轨迹奖励,但过程奖励 r ( a t , s t + 1 ) r(a_t, s_{t+1}) r(at,st+1)包含更丰富的信号。特别是当下一状态包含"应该如何改进"的明确指导信息时,可通过在线蒸馏实现方向性改进。
异步流水线架构
核心架构原则是完全解耦。策略服务、环境托管、PRM评判、策略训练作为四个独立异步循环运行,彼此零阻塞依赖。这使得从实时异构交互流持续训练变得可行:无需暂停或批量任何流以适配其他组件的调度。

对于个人Agent,模型通过保密API连接以保障私有安全部署,无需修改个人Agent框架,并可优雅更新权重而中断推理。对于大规模通用Agent训练,异步设计允许各组件独立进行,缓解长程rollout导致的尾部问题。

Binary RL:评估性信号恢复
给定响应 a t a_t at和下一状态 s t + 1 s_{t+1} st+1,评判模型评估 a t a_t at质量:
PRM ( a t , s t + 1 ) → r ∈ { + 1 , − 1 , 0 } \text{PRM}(a_t, s_{t+1}) \rightarrow r \in \{+1, -1, 0\} PRM(at,st+1)→r∈{+1,−1,0}
具体而言,PRM根据用户下一响应或工具调用结果评判每个动作。工具调用结果通常有明确结论;用户下一响应可能包含满意或不满意信号。若无明确用户反应迹象,模型也会根据场景估计,同时鼓励用户提供更明确反馈。
系统运行 m m m次独立查询,取多数投票 r f i n a l = MajorityVote ( r 1 , ... , r m ) r_{final} = \text{MajorityVote}(r_1, \ldots, r_m) rfinal=MajorityVote(r1,...,rm)。训练目标采用PPO风格的裁剪代理目标:
L p g = − E t min [ ρ t A t , clip ( ρ t , 1 − ε , 1 + ε h i g h ) ⋅ A t ] \mathcal{L}_{pg} = -\mathbb{E}t \min\left[\rho_t A_t, \text{clip}(\rho_t, 1-\varepsilon, 1+\varepsilon{high}) \cdot A_t\right] Lpg=−Etmin[ρtAt,clip(ρt,1−ε,1+εhigh)⋅At]
其中 ρ t = π θ ( a t ∣ s t ) / π o l d ( a t ∣ s t ) \rho_t = \pi_\theta(a_t|s_t) / \pi_{old}(a_t|s_t) ρt=πθ(at∣st)/πold(at∣st), ε = 0.2 \varepsilon = 0.2 ε=0.2, ε h i g h = 0.28 \varepsilon_{high} = 0.28 εhigh=0.28。

Hindsight-Guided OPD:指导性信号恢复
Binary RL将 s t + 1 s_{t+1} st+1的全部信息内容压缩为单一标量 r ∈ { + 1 , − 1 , 0 } r \in \{+1, -1, 0\} r∈{+1,−1,0}。然而,用户说"你应该先检查文件再编辑"传达的信息远不止此:不仅表示响应错误,还指出哪些token应该不同、如何不同。这种方向性信息被标量奖励完全丢失。
OPD通过将下一状态信号转换为token级别训练信号来恢复这些信息。核心洞察是:如果用从 s t + 1 s_{t+1} st+1提取的文本提示增强原始prompt,同一模型会产生不同的token分布------"知道"正确响应应该是什么样的。提示增强分布与学生分布的逐token差距提供方向性优势:在应该增强的token处为正,在应该抑制的token处为负。
步骤1:后见提示提取。评判模型生成简洁的可操作指令:
Judge ( a t , s t + 1 ) → { score ∈ { + 1 , − 1 } , hint ∈ T ∗ } \text{Judge}(a_t, s_{t+1}) \rightarrow \{\text{score} \in \{+1, -1\}, \text{hint} \in \mathcal{T}^*\} Judge(at,st+1)→{score∈{+1,−1},hint∈T∗}
若score = +1,产生[HINT_START]...[HINT_END]格式的简洁提示。关键设计选择是不直接使用 s t + 1 s_{t+1} st+1作为提示------原始下一状态信号往往嘈杂冗长,评判模型将其蒸馏为简洁可操作的指令。
步骤2:提示选择与质量过滤。在带有超过10字符提示的正投票中,选择最长的(信息最丰富的)。若无有效提示,则丢弃样本------OPD以样本数量换取信号质量。
步骤3:增强教师构建 。提示附加到最后用户消息形成增强prompt s e n h a n c e d = s t ⊕ hint s_{enhanced} = s_t \oplus \text{hint} senhanced=st⊕hint。
步骤4:Token级别优势 。在 s e n h a n c e d s_{enhanced} senhanced下查询策略模型,强制输入原始响应 a t a_t at,计算每个响应token的对数概率:
A t = log π t e a c h e r ( a t ∣ s e n h a n c e d ) − log π θ ( a t ∣ s t ) A_t = \log \pi_{teacher}(a_t|s_{enhanced}) - \log \pi_\theta(a_t|s_t) At=logπteacher(at∣senhanced)−logπθ(at∣st)
A t > 0 A_t \gt 0 At>0表示教师(知道提示)对该token赋予更高概率,学生应增强; A t < 0 A_t \lt 0 At<0表示教师认为该提示下token不太合适,学生应抑制。这与所有token推向同一方向的标量优势根本不同,提供逐token方向性指导。
双方法组合

Binary RL与OPD互补而非竞争。Binary RL接受每个评分轮次,无需提示提取,适用于任何下一状态信号;OPD在交互流可能携带丰富指导内容时额外启用。实践中推荐同时运行两者:Binary RL提供跨所有轮次的广泛梯度覆盖,OPD在对有方向性信号的轮次提供高分辨率逐token修正。
组合优势采用加权损失:
A t = w b i n a r y ⋅ r f i n a l + w o p d ⋅ ( log π t e a c h e r ( a t ∣ s e n h a n c e d ) − log π θ ( a t ∣ s t ) ) A_t = w_{binary} \cdot r_{final} + w_{opd} \cdot (\log \pi_{teacher}(a_t|s_{enhanced}) - \log \pi_\theta(a_t|s_t)) At=wbinary⋅rfinal+wopd⋅(logπteacher(at∣senhanced)−logπθ(at∣st))
默认 w b i n a r y = w o p d = 1 w_{binary} = w_{opd} = 1 wbinary=wopd=1。
通用Agent的过程奖励
在长程Agent任务中,仅结果奖励只在终止步骤提供梯度信号,绝大多数轮次无监督。PRM根据下一状态信号为每轮分配奖励,提供轨迹全过程的密集信用分配。
集成结果与过程奖励采用简单相加: o + 1 m ∑ i = 1 m r i o + \frac{1}{m}\sum_{i=1}^m r_i o+m1∑i=1mri作为步骤 t t t的奖励。由于存在步骤级奖励,优势计算采用同步骤索引的动作分组。
实验洞察
个人Agent轨迹:对话信号学习
作者设计了两个模拟场景验证方法有效性:
学生场景:使用OpenClaw完成作业的学生,不希望被发现使用AI。使用GSM8K数据集,Qwen3-4B模型。评估以相同LLM模拟器对OpenClaw首次生成解答打分。
教师场景:使用OpenClaw批改作业的教师,希望评语具体友好。
实验结果表明,组合方法在学生场景仅需36次问题求解交互、教师场景仅需24次批改交互即可实现显著可见改进。如表3所示,组合方法更新16步后得分为0.81,远超Binary RL(0.23)和OPD(0.72)单独使用。

优化效果具体体现为:学生场景下,Agent学会避免明显AI化表达(如"bold"词汇、过度结构化的步骤响应),转向更自然随意的风格;教师场景下,Agent学会撰写更友好详细的反馈。
通用Agent轨迹:跨场景统一RL
在终端、GUI、SWE、工具调用四种场景下验证框架竞争力。使用Qwen3-8B、Qwen3VL-8B-Thinking、Qwen3-32B、Qwen3-4B-SFT分别作为终端、GUI、SWE、工具调用Agent的基础模型。大规模环境并行化(终端128、GUI/SWE各64、工具调用32个并行环境)进一步提升RL训练可扩展性。


过程奖励有效性验证显示(表4),集成结果与过程奖励的工具调用场景准确率达0.30(vs 仅结果奖励0.17),GUI场景达0.33(vs 0.31)。权衡在于托管PRM需要额外资源。
作者强调,这证明了同一框架可同时支持个人Agent个性化与长程Agent任务的大规模RL训练------全部源自其已进行的交互,无需任何数据预收集阶段。