Qwen 团队提出 ArenaRL:面向开放式 Agent RL 任务

ArenaRL:用"锦标赛相对排序"把开放式智能体的 RL 拉出噪声泥潭

一句话结论

这篇论文提出 ArenaRL ,把开放式任务里"点式标量打分"的奖励范式改成 组内相对排序 + 锦标赛机制 ,用线性复杂度实现接近全对比的优势估计精度,并配套构建了 Open-TravelOpen-DeepResearch 两个完整训练-评测基准。


1. 问题背景:开放式任务为何难训?

在旅行规划、深度研究这类开放式任务里,没有客观标准答案,主流做法是用 LLM-as-a-Judge 对单条轨迹打一个分数。但作者指出一个关键问题: 判别塌缩(discriminative collapse)

当模型逐渐变强时,轨迹之间质量差距缩小,评分集中在狭窄区间,评分噪声反而成为主导,导致 RL 信号极不稳定。

图解:左侧展示点式评分出现"评分集中 + 噪声不低"的现象,信噪比极差;右侧对比显示 ArenaRL 在多个开放式任务上显著优于 SFT/GRPO/GSPO。


2. ArenaRL 核心思想:从"标量打分"转向"组内排序"

ArenaRL 把奖励建模改成 组内相对排序 。流程是:

  • 对同一输入生成一组轨迹 G = { τ 1 , ... , τ N } \mathcal{G}=\{\tau_1,\dots,\tau_N\} G={τ1,...,τN}
  • 成对比较的裁判 给出相对胜负
  • 锦标赛拓扑 高效地得到排序
  • 用排序映射为可优化的优势值

核心公式如下:

排序奖励映射
r i = 1 − Rank ( τ i ) N − 1 r_i = 1 - \frac{\text{Rank}(\tau_i)}{N-1} ri=1−N−1Rank(τi)

标准化优势
A i = r i − μ r σ r + ϵ A_i = \frac{r_i - \mu_r}{\sigma_r + \epsilon} Ai=σr+ϵri−μr

优化目标(带 KL 约束)
L ArenaRL ( θ ) = E [ 1 N ∑ i = 1 N ( PPO-clip ( A i ) − β D K L ) ] \mathcal{L}{\text{ArenaRL}}(\theta) = \mathbb{E}\Bigg[\frac{1}{N}\sum{i=1}^N\big( \text{PPO-clip}(A_i) - \beta D_{KL}\big)\Bigg] LArenaRL(θ)=E[N1i=1∑N(PPO-clip(Ai)−βDKL)]


3. 过程感知的成对评价(Process-Aware Pairwise Evaluation)

作者不是只比较最终答案,而是让裁判 对整个推理轨迹进行对比 :链式推理、工具调用是否合理、最终答案是否靠谱。

为了减少裁判位置偏置,采用双向比较:
( s i , s j ) = J ( x , τ i , τ j ) + J ( x , τ j , τ i ) (s_i, s_j) = \mathcal{J}(x,\tau_i,\tau_j) + \mathcal{J}(x,\tau_j,\tau_i) (si,sj)=J(x,τi,τj)+J(x,τj,τi)


4. 锦标赛拓扑:线性复杂度里的"高精度排序"

论文测试了 5 种拓扑,最终发现 带种子单淘汰(Seeded Single-Elimination) 是最优折中。

核心思路:

  1. 用 "anchor"(贪心解码轨迹)进行预排序
  2. 采用种子顺序构建淘汰赛
  3. 结合晋级轮次与累计得分做分层排序

图解:ArenaRL 先用锚点排名,再进行单淘汰锦标赛,最终按晋级层级 + 累积分数完成排序,从而高效得到稳定优势信号。


5. ArenaRL 的完整训练闭环

ArenaRL 不仅提出算法,还给出 训练-评测一体化基准

  • Open-Travel :多约束旅行规划
  • Open-DeepResearch :开放式调研、检索、报告生成

图解:基准构建流程分三阶段:数据收集、训练数据扩展、质量控制,形成可用于 SFT + RL + 评测的完整闭环。


6. 核心实验结果

6.1 不同锦标赛拓扑比较

Seeded Single-Elimination 的表现几乎追平 Round-Robin,但成本从 O ( N 2 ) \mathcal{O}(N^2) O(N2) 降为 O ( N ) \mathcal{O}(N) O(N)。

6.2 与主流 RL 基线对比

  • 在 Open-Travel 上,ArenaRL 平均胜率 41.8% ,远高于 GRPO/GSPO
  • 在 Open-DeepResearch 上,ArenaRL 胜率 64.3% ,有效生成率 99%

这说明 ArenaRL 不仅效果更好,而且更稳定。

6.3 开放式写作任务

在 WritingBench / HelloBench / LongBench 上整体领先,证明该范式能泛化到非工具任务。


7. 关键可视化分析

图解:

(a) 组大小 N 越大性能越好,表明更大候选池能提升探索质量。

(b) LLM 评估与人类评估的一致性达 73.9%,说明提升不是"对裁判过拟合"。

© 即使没有冷启动,ArenaRL 仍能稳定提升,说明其奖励信号鲁棒。


8. 方法亮点与创新点总结

  • 痛点切得准 :抓住开放式 RL 的核心问题"判别塌缩"
  • 奖励建模升级 :从点式打分转向相对排序,鲁棒性显著提升
  • 效率友好 :线性比较复杂度却接近全对比精度
  • 完整闭环 :不仅提出算法,还搭建基准和训练流程

9. 结论与展望

ArenaRL 用 相对排序 + 锦标赛机制 打破开放式任务的奖励噪声瓶颈,在效率与精度之间取得高质量平衡。未来方向包括:

  • 推广到多模态智能体
  • 更复杂工具链场景
  • 结合人类偏好引导更细粒度排序

本文参考自 ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

相关推荐
NAGNIP2 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab3 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab3 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP7 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年7 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼7 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS7 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区8 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈8 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang9 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx