Qwen 团队提出 ArenaRL：面向开放式 Agent RL 任务

ArenaRL：用"锦标赛相对排序"把开放式智能体的 RL 拉出噪声泥潭

一句话结论

这篇论文提出 ArenaRL ，把开放式任务里"点式标量打分"的奖励范式改成 组内相对排序 + 锦标赛机制 ，用线性复杂度实现接近全对比的优势估计精度，并配套构建了 Open-Travel 与 Open-DeepResearch 两个完整训练-评测基准。

1. 问题背景：开放式任务为何难训？

在旅行规划、深度研究这类开放式任务里，没有客观标准答案，主流做法是用 LLM-as-a-Judge 对单条轨迹打一个分数。但作者指出一个关键问题： 判别塌缩（discriminative collapse） 。

当模型逐渐变强时，轨迹之间质量差距缩小，评分集中在狭窄区间，评分噪声反而成为主导，导致 RL 信号极不稳定。

图解：左侧展示点式评分出现"评分集中 + 噪声不低"的现象，信噪比极差；右侧对比显示 ArenaRL 在多个开放式任务上显著优于 SFT/GRPO/GSPO。

2. ArenaRL 核心思想：从"标量打分"转向"组内排序"

ArenaRL 把奖励建模改成 组内相对排序 。流程是：

对同一输入生成一组轨迹 G = { τ 1 , ... , τ N } \mathcal{G}=\{\tau_1,\dots,\tau_N\} G={τ1,...,τN}
用 成对比较的裁判 给出相对胜负
用 锦标赛拓扑 高效地得到排序
用排序映射为可优化的优势值

核心公式如下：

排序奖励映射
r i = 1 − Rank ( τ i ) N − 1 r_i = 1 - \frac{\text{Rank}(\tau_i)}{N-1} ri=1−N−1Rank(τi)

标准化优势
A i = r i − μ r σ r + ϵ A_i = \frac{r_i - \mu_r}{\sigma_r + \epsilon} Ai=σr+ϵri−μr

优化目标（带 KL 约束）
L ArenaRL ( θ ) = E [ 1 N ∑ i = 1 N ( PPO-clip ( A i ) − β D K L ) ] \mathcal{L}{\text{ArenaRL}}(\theta) = \mathbb{E}\Bigg[\frac{1}{N}\sum{i=1}^N\big( \text{PPO-clip}(A_i) - \beta D_{KL}\big)\Bigg] LArenaRL(θ)=E[N1i=1∑N(PPO-clip(Ai)−βDKL)]

3. 过程感知的成对评价（Process-Aware Pairwise Evaluation）

作者不是只比较最终答案，而是让裁判 对整个推理轨迹进行对比 ：链式推理、工具调用是否合理、最终答案是否靠谱。

为了减少裁判位置偏置，采用双向比较：
( s i , s j ) = J ( x , τ i , τ j ) + J ( x , τ j , τ i ) (s_i, s_j) = \mathcal{J}(x,\tau_i,\tau_j) + \mathcal{J}(x,\tau_j,\tau_i) (si,sj)=J(x,τi,τj)+J(x,τj,τi)

4. 锦标赛拓扑：线性复杂度里的"高精度排序"

论文测试了 5 种拓扑，最终发现 带种子单淘汰（Seeded Single-Elimination） 是最优折中。

核心思路：

用 "anchor"（贪心解码轨迹）进行预排序
采用种子顺序构建淘汰赛
结合晋级轮次与累计得分做分层排序

图解：ArenaRL 先用锚点排名，再进行单淘汰锦标赛，最终按晋级层级 + 累积分数完成排序，从而高效得到稳定优势信号。

5. ArenaRL 的完整训练闭环

ArenaRL 不仅提出算法，还给出 训练-评测一体化基准 ：

Open-Travel ：多约束旅行规划
Open-DeepResearch ：开放式调研、检索、报告生成

图解：基准构建流程分三阶段：数据收集、训练数据扩展、质量控制，形成可用于 SFT + RL + 评测的完整闭环。

6. 核心实验结果

6.1 不同锦标赛拓扑比较

Seeded Single-Elimination 的表现几乎追平 Round-Robin，但成本从 O ( N 2 ) \mathcal{O}(N^2) O(N2) 降为 O ( N ) \mathcal{O}(N) O(N)。

6.2 与主流 RL 基线对比

在 Open-Travel 上，ArenaRL 平均胜率 41.8% ，远高于 GRPO/GSPO
在 Open-DeepResearch 上，ArenaRL 胜率 64.3% ，有效生成率 99%

这说明 ArenaRL 不仅效果更好，而且更稳定。

6.3 开放式写作任务

在 WritingBench / HelloBench / LongBench 上整体领先，证明该范式能泛化到非工具任务。

7. 关键可视化分析

图解：

(a) 组大小 N 越大性能越好，表明更大候选池能提升探索质量。

(b) LLM 评估与人类评估的一致性达 73.9%，说明提升不是"对裁判过拟合"。

© 即使没有冷启动，ArenaRL 仍能稳定提升，说明其奖励信号鲁棒。

8. 方法亮点与创新点总结

痛点切得准 ：抓住开放式 RL 的核心问题"判别塌缩"
奖励建模升级 ：从点式打分转向相对排序，鲁棒性显著提升
效率友好 ：线性比较复杂度却接近全对比精度
完整闭环 ：不仅提出算法，还搭建基准和训练流程

9. 结论与展望

ArenaRL 用 相对排序 + 锦标赛机制 打破开放式任务的奖励噪声瓶颈，在效率与精度之间取得高质量平衡。未来方向包括：

推广到多模态智能体
更复杂工具链场景
结合人类偏好引导更细粒度排序

本文参考自 ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking