【RL】GIGPO - 技术栈

Group-in-Group Policy Optimization for LLM Agent Training

好的，这是对您提供的第二篇技术论文《Group-in-Group Policy Optimization for LLM Agent Training》的全文翻译。

面向LLM智能体训练的组内组策略优化

Lang Feng¹, Zhenghai Xue¹, Tingcong Liu¹, Bo An^1,2,∗

¹新加坡南洋理工大学
²新加坡天工智能 (Skywork AI)

{lang005,zhenghai001,tingcong001}@e.ntu.edu.sg, boan@ntu.edu.sg

摘要

最近，基于组的强化学习（RL）的进展推动了前沿大型语言模型（LLM）在数学推理等单轮任务中的应用。然而，它们在多轮LLM智能体训练中的可扩展性仍然有限。与静态任务不同，智能体与环境的交互会跨越多个步骤，并且通常产生稀疏或延迟的奖励，这使得对单个步骤进行信用分配变得极具挑战性。在这项工作中，我们提出了组内组策略优化（Group-in-Group Policy Optimization, GiGPO） ，一种新颖的RL算法，它能够为LLM智能体实现细粒度的信用分配，同时保留了基于组的RL的吸引人的特性：无评判网络（critic-free）、低内存和稳定收敛 。GiGPO引入了一个两级结构来估计相对优势：(i) 在回合（episode）级别 ，GiGPO基于完整的轨迹组计算宏观相对优势；(ii) 在步骤（step）级别 ，GiGPO引入了一种锚定状态分组机制 ，通过识别跨轨迹的重复环境状态来追溯性地构建步骤级分组。源自相同状态的动作被分组在一起，从而能够进行微观相对优势估计。这种层级结构有效地捕捉了全局轨迹质量和局部步骤的有效性，而无需依赖辅助模型或额外的采样（rollouts）。我们在具有挑战性的智能体基准上评估了GiGPO，包括ALFWorld和WebShop，以及在搜索增强的问答任务上的工具集成推理，使用了Qwen2.5-1.5B/3B/7B-Instruct模型。至关重要的是，GiGPO提供了细粒度的每一步信用信号 ，在ALFWorld和WebShop上相比GRPO分别取得了**>12%和>9%的性能提升**，并在问答任务上获得了优越的性能（3B模型上为42.1%，7B模型上为47.2%）：所有这些都是在保持相同的GPU内存开销、相同的LLM采样，并且几乎没有额外的时间成本的情况下实现的。

1 引言

大型语言模型（LLM）[1, 2, 3, 4]已经从静态的问答系统飞跃成为能够在开放环境中感知、推理和行动的多功能智能体。例如，它们现在为在模拟家庭中导航的具身助手[5, 6]、规划多步浏览会话的移动和网页导航器[7, 8, 9, 10]以及在互动游戏中自主探索的智能体[11, 12]提供支持。在这些场景中，LLM智能体需要通过多轮循环进行感知、推理和行动，这不仅需要语言理解，还需要长期的规划和决策能力。

强化学习（RL）[13]已成为后训练LLM的关键配方，催生了像OpenAI o1 [14]和DeepSeek R1 [15]这样的前沿模型。特别是，像RLOO [16, 17]和GRPO [18]这样的基于组的RL算法在大型训练中被证明特别有效。这些方法用简单而强大的组内相对优势估计取代了价值函数估计。这种基于组的优势计算享有良好的特性，例如低内存开销、无评判网络优化以及对大型模型的可扩展性。然而，到目前为止，它们的成功在很大程度上仅限于单轮任务，例如数学问题解决[19, 20]和代码生成[21]，在这些任务中，奖励是即时到达的，信用分配是直接的。

相比之下，在外部环境中操作的LLM智能体面临着根本不同的学习环境。它们的行为在长达数十个决策步骤和数万个令牌的长回合中展开（例如，一个ALFWorld [5]回合可能包括多达50个步骤和超过20k个令牌）。奖励通常是稀疏的（有时只在回合结束时到达），并且任何单个动作的影响可能要到轨迹的后期才会显现。这大大复杂化了对单个步骤的信用分配，并增加了策略优化的挑战。在这样的设置中，天真地应用现有的基于组的RL算法会抹平步骤级别的差异，从而削弱其有效性。因此，这些限制提出了一个核心问题：

我们能否在为多轮LLM智能体训练引入细粒度信用分配的同时，保留基于组的RL的无评判网络、低内存和稳定收敛的特性？

为了解决这个问题，我们引入了组内组策略优化（GiGPO） ，一种新的基于组的RL算法，它嵌套了二维的信用分配概念，更适合于LLM智能体的多轮优化。(i) 在回合级别 ，GiGPO在相同任务和初始状态条件下采样一组完整的轨迹，并像普通的GRPO [18]一样，根据总回报计算宏观相对优势。这捕捉了每个轨迹的整体有效性，并反映了任务执行的完整性。(ii) 在步骤级别 ，GiGPO引入了一种新颖的锚定状态分组机制，用于细粒度的相对优势估计。具体来说，它追溯性地识别跨轨迹的重复环境状态，称为锚定状态，并使用它们作为锚点来构建步骤级分组，从而实现局部化的信用分配。

GiGPO背后的关键洞察是，在相同的任务和初始环境条件下，由于无效的动作或循环，组内的许多轨迹会多次遇到相同的状态，例如重新访问同一个网页、房间或游戏场景。这些共享的状态为步骤级分组的构建和计算更精细的优势估计提供了自然的基础。GiGPO使用这些步骤级分组，根据它们在同一状态下的相对表现为动作分配局部化的信用，从而实现更精确的优化，同时避免了每一步额外采样的成本爆炸。因此，GiGPO保持了完全的无评判网络特性，并且不需要辅助价值模型，同时为训练LLM智能体显著引入了更精细的信用信号。

我们首先在长期的智能体基准上评估GiGPO：ALFWorld [5]，它测试了在模拟家庭环境中的具身任务规划；以及WebShop [22]，它模拟了复杂、目标驱动的网页交互。此外，我们还研究了在搜索增强的问答任务上的多轮工具集成推理。我们使用Qwen2.5-1.5B/3B/7B-Instruct [3]的实验表明，GiGPO始终优于基于提示的智能体、演员-评判（actor-critic）基线和先前的基于组的RL方法。特别是，GiGPO注入了细粒度的、步骤级的信用信号，从而锐化了智能体在长期视野下的策略学习，并在ALFWorld上比GRPO取得了>12%的性能提升，在WebShop上取得了>9%的性能提升，同时在搜索型问答任务上取得了卓越的性能（3B模型上为42.1%，7B模型上为47.2%）。这些收益是在不牺牲基于组的RL核心优势（仅增加<0.002%的时间成本）的情况下实现的，使GiGPO成为一个多功能、高实用性的LLM智能体算法。

*通讯作者

代码: https://github.com/langfengQ/verl-agent
第39届神经信息处理系统会议 (NeurIPS 2025)。

2 相关工作

LLM作为决策智能体。大型语言模型（LLM）作为自主智能体的使用已在程序生成[23]、智能设备操作[24, 25, 26, 27]、互动游戏[11]和机器人行为控制[28]等领域迅速扩展。早期的工作通常依赖于通过精心设计的提示方法（如ReAct [29]和Reflexion [30]）、增强的记忆和检索系统[12, 31]以及与外部工具的集成[32, 33, 34]来利用预训练的冻结模型。最近的研究已转向通过监督微调（SFT）[24]或RL [13]来调整模型参数，使智能体能够直接从环境交互中学习，而不是依赖于静态提示或手工制作的工作流程，我们将在下文介绍。

用于LLM智能体的强化学习。RL在使LLM智能体能够在动态、开放的环境中操作方面发挥了关键作用。早期的工作将DQN [35]等经典RL算法应用于训练基于文本游戏的LLM智能体[36]，后来的研究[37, 38, 39, 40, 41]开始在更多样化和互动的智能体场景中使用基于价值的方法，如PPO [42]和AWR [43]，包括Android设备控制[44]、具身ALFWorld [5]和纸牌游戏[45]。最近的方法已将RL训练扩展到复杂的基于Web和以应用程序为中心的任务。例如，ArCHer [46]和AgentQ [47]针对WebShop基准[22]，但需要复杂的设计和计算开销，例如额外的价值网络或蒙特卡洛树搜索（MCTS）[48]。CoSo [10]引入了一种基于熵的RL方法，提高了智能体的性能。更进一步，LOOP [49]引入了一种混合方法，将REINFORCE leave-one-out（RLOO）[16, 17]与PPO风格的更新相结合，在AppWorld [50]中取得了最先进的结果。RAGEN [51]引入了一种轨迹级别的GRPO，它将所有状态、中间推理和动作连接成一个统一的回合级响应。然而，它在长周期任务中面临可扩展性挑战（例如，在ALFWorld中，这涉及到多达50个步骤）。

用于大型语言模型的强化学习。RL在LLM中的一个早期且有影响力的应用是来自人类反馈的强化学习（RLHF）[52, 53, 54, 55]，其重点是将LLM与人类偏好对齐。最近的大多数工作都探索了使用RL来增强LLM的推理和逻辑演绎能力[56, 15]。特别是，基于组的RL算法已成为传统方法（如PPO [42]）的有前途的替代品。这些方法，如RLOO [16, 17]、GRPO [18]、Dr. GRPO [19]、DAPO [20]和CPPO [57]，通过利用来自同一查询的一组样本并相应地估计优势，避免了引入额外的价值函数。这使得大规模RL训练成为可能，并在数学推理[15]、搜索[58, 59]和工具使用[60, 61]等任务中显示出强大的结果。我们的工作与这一研究方向密切相关，重点是训练LLM智能体。我们旨在保留基于组的RL的好处，如无评判网络学习和效率，同时引入更细粒度的信用分配。此外，GiGPO的层级核心与现有的基于组的RL方法是正交的，使其完全兼容并能够整合它们以增强性能。

3 预备知识

问题设置 。我们考虑一个通用设置，其中LLM智能体与环境交互以完成基于任务描述x ∈ p(X)的多步骤任务。在每个离散时间步t = 1, 2, ..., T，智能体观察到一个状态st ∈ S并生成一个文本动作at ∈ V^n，其中V表示令牌词汇表，n是最大生成长度。然后环境返回一个标量奖励rt ∈ R和下一个状态st+1。一个完整的episode由一个轨迹τ = {(s1, a1, r1), (s2, a2, r2), ..., (sT, aT, rT)}组成。智能体的行为由一个LLM策略πθ(at|st, x)控制，该策略由θ参数化，定义了在当前状态st和任务提示x的条件下，输出的分布。在许多现实场景中，环境可能提供稀疏或延迟的奖励（例如，在episode结束时的成功和失败信号）或对中间步骤的弱反馈信号。由于智能体生成T个连续的文本动作(a1, ..., aT)，每个动作可能跨越数千个令牌，因此在episode过程中为单个令牌分配信用变得特别具有挑战性。

基于组的RL 。最近的RL工作都集中在一个简单的LLM训练配方上：对于给定的任务描述x，LLM采样一组N个候选轨迹{τ1, τ2, ..., τN}，每个轨迹对应于在πθold下的一个完整episode rollout。每个轨迹τi收到一个标量奖励R(τi)，反映了生成结果的整体质量或成功。与像PPO [42]那样使用单独的价值函数来估计优势不同，基于组的RL方法纯粹基于采样组内的统计数据来计算优势：
A(τi) = GroupComputation({R(τi)}^N_i=1)。(1)

例如，在GRPO [18]中，每个轨迹的优势是通过将其奖励相对于组的均值和标准差进行归一化来估计的。这种设计内存效率非常高，并且可以有效地扩展到现代LLM训练中典型的大批量大小和模型大小，使其成为大规模RL训练的实用且可扩展的选择。

4 使用GiGPO训练LLM智能体

虽然基于组的RL算法[18, 15]已被证明在训练单轮任务中的LLM方面非常有效，但它们向多步智能体设置的扩展在信用分配方面面临着关键挑战。

图1：多轮LLM智能体训练的比较。左：普通的GRPO采样一组完整的轨迹并计算回合级别的优势。中：通过额外的每状态采样（例如，a'4, a''4, a'''4, ...）构建步骤级分组可以提供细粒度的反馈，但会产生高昂的计算成本。右：GiGPO通过聚合来自相同环境状态s̃的不同动作（a', a'', a''', a''''）来高效地实现细粒度的信用分配。

图1说明了这一差距。普通的GRPO（左）将每个轨迹视为一个整体，并为整个episode计算一个单一的相对优势，这未能为单个步骤提供可操作的反馈。一个自然的补救方法是通过πθold为每个状态st采样多个单步动作，如图1（中）所示。然而，由于额外的LLM前向传播的巨大开销以及评估从未实际执行的假设动作的奖励的困难，这种方法很快变得不切实际。

为了克服这些挑战，我们在本节中提出了我们的组内组策略优化（GiGPO） 。与先前的工作[49, 51]类似，GiGPO首先在相同的任务和初始环境状态下采样轨迹组。然后，它引入了一个两级分组结构 ：保留回合级分组用于整体性能比较，同时通过追溯性地聚合遇到相同环境状态的动作来动态构建额外的步骤级分组。这种"组内组"的构建产生了两个互补的优势：(1) 回合相对优势 捕捉了每个轨迹的整体有效性，提供了一个稳定、全局的训练信号。(2) 步骤相对优势则聚焦于在相同状态下哪些动作优于其同类，从而为梯度赋予了细粒度的信用。

图2：GiGPO概览。智能体与一组初始化为相同状态的环境交互，以生成一组轨迹{τi}Ni=1。相同颜色的状态代表相同的环境状态。GiGPO执行二维组计算（回合级AE和步骤级AS）以产生指导细粒度策略优化的层级相对优势。

图2展示了GiGPO训练流程的概览。在本节的其余部分，我们将详细介绍回合级相对优势的计算，阐述锚定状态分组机制，描述步骤级相对优势的推导，并最终呈现GiGPO的整体目标。

4.1 回合相对优势

我们首先介绍回合相对优势（episode relative advantages） ，它代表了GiGPO的粗粒度组件，并反映了在轨迹级别上朴素应用GRPO的情况。我们在环境中采样智能体的策略πθold，以在固定的任务x和相同的初始状态下收集N个完整的轨迹。形式上，这个过程产生一组轨迹{τi}^N_i=1，其中每个轨迹表示为τi = {(s(i)1, a(i)1, r(i)1), ..., (s(i)T, a(i)T, r(i)T)}，并且初始状态满足s(1)1 = s(2)1 = ..., = s(N)1。对于每个轨迹，我们利用总回报R(τi) = Σ_t r(i)t作为衡量智能体完成任务有效性的整体指标。在只在回合结束时给出二元奖励的设置中，这简化为成功时R(τi) = 1，失败时R(τi) = 0。然后，我们将轨迹及其对应的回报组织成一个回合级分组：
GE = {(τ1, R(τ1)), (τ2, R(τ2)), ..., (τN, R(τN))}。(2)

为了评估组内每个轨迹的全局相对质量，我们通过使用组的均值和归一化因子对总回报进行归一化，为每个τi计算一个回合相对优势AE(τi) ：
AE(τi) = (R(τi) - mean({R(τj)}^N_j=1)) / Fnorm({R(τj)}^N_j=1)。(3)

在GRPO [18]中，默认的归一化因子定义为标准差，即Fnorm = std。然而，这可能会引入一个难度偏差 [19]，即来自低方差组（例如，非常容易或非常困难的任务）的轨迹会收到不成比例的大梯度。在LLM智能体的背景下，任务通常涉及非常长的视野，这种效应倾向于频繁出现，可能会影响更新的稳定性。作为替代方案，我们还考虑了一个固定的归一化因子Fnorm = 1，这会产生一个无偏的Leave-One-Out估计器[16]（详见附录C）。这个简单的调整有助于在一些具有挑战性的智能体场景中稳定训练。

总体而言，回合相对优势捕捉了智能体是否在整个决策视野T上成功完成了任务。与图1（左）所示的多步优化香草GRPO类似，它主要关注宏观信用分配，鼓励策略发展连贯的、轨迹范围内的行为，以最大化整体任务性能。

4.2 步骤相对优势

虽然回合相对优势提供了一个宏观的、轨迹范围的信号，但它无法区分轨迹内单个动作的贡献。为了获得这种细粒度的反馈，我们需要形成步骤级分组 ：对于相同的状态，我们收集不同的动作并比较它们的结果，从而学习哪些选择相对更好或更差。一种天真的方法是从每个状态重新采样新的动作（图1，中），但这代价高昂。相反，我们引入了下面的锚定状态分组，避免了额外的LLM开销。

锚定状态分组（Anchor state grouping） 。由于所有轨迹{τ1, ..., τN}都源于相同的任务x和相同的初始条件，许多环境状态自然会在不同的回合之间甚至在单个轨迹的时间步之间重复出现。我们通过识别和分组跨轨迹的相同状态来利用这种冗余，从而动态地构建步骤级分组。具体来说，让U = {s̃1, s̃2, ..., s̃U}表示出现在轨迹组{τ1, ..., τN}中的所有不同环境状态的集合。我们将每个这样的唯一状态s̃ ∈ U视为一个隐式锚点，并用它来收集该状态的所有匹配出现，因此称s̃为"锚定状态"。基于此，我们可以构建|U|个步骤级分组（每个唯一锚定状态s̃一个），定义如下：
GS(s̃) = {(a(i)t, r(i)t) | s(i)t = s̃, 1 ≤ i ≤ N, 1 ≤ t ≤ T}。(4)

与每次状态都重新采样不同，此过程不会产生额外的采样：它完全是离线的，并且只需要使用哈希图进行轻量级的基于键的分组。每个分组GS(s̃)包含多个相同环境状态的实例，但可能配对有不同的动作。因此，这种结构有效地构建了步骤级分组，为后续的步骤级优势估计奠定了基础。

相对优势计算 。虽然每个元组(a(i)t, r(i)t)都包含一个即时奖励r(i)t，但在长周期任务中，它可能是稀疏的。为了更好地捕捉长期影响，我们将一个折扣回报 与每个步骤关联起来。让γ ∈ (0, 1]为标准的RL折扣因子。对于GS(s̃)中的每个元素，我们计算其折扣回报R(i)t：
R(i)t = Σ^T_{k=t} γ^(k-t) r(i)k。(5)

这个量捕捉了动作a(i)t对后续奖励的未来影响，而不是仅仅依赖于即时奖励r(i)t。因此，每个s̃ ∈ U的步骤级分组变为：
GS(s̃) = {(a(i)t, R(i)t) | s(i)t = s̃, 1 ≤ i ≤ N, 1 ≤ t ≤ T}。(6)

一旦这些步骤级分组形成，我们为每个s̃ ~ U和GS(s̃)中的每个动作a(i)t计算步骤相对优势 ：
AS(a(i)t) = (R(i)t - mean({R(j)t | (a(j)t, R(j)t) ∈ GS(s̃)})) / Fnorm({R(j)t | (a(j)t, R(j)t) ∈ GS(s̃)})。(7)

AS提供了微观的信用分配和对在相同状态下采取的单个动作的相对质量的细粒度反馈。与AE的粗略、轨迹范围的信号相比，它提供了步骤级的指导，这对于在长周期智能体任务中优化决策至关重要。

图3：WebShop中步骤级分组的示意图。 τ1和τ2都多次遇到相同的环境状态：一个搜索结果页面（由红色边框突出显示）。上图：τ1最终成功。下图：τ2导致失败。

步骤级分组如何工作？ 我们在图3中提供了一个直观的说明，以展示步骤相对优势的效用。我们考虑来自集合{τi}^N_i=1的两个示例轨迹。在τ1中，智能体首先选择了第2个项目（不正确），然后返回上一页并选择了第1个项目（正确），成功完成了任务。由于时间折扣（公式(5)），较早的动作（第2个项目）收到的折扣回报低于后来的正确动作（第1个项目）。在τ2中，智能体点击了下一页，最终未能找到目标，没有收到奖励。通过基于它们共享的锚定状态将这些动作聚合到同一个步骤级分组中，GiGPO计算它们的相对优势，并产生一个清晰的偏好排序：
AS(第1个项目) > AS(第2个项目) > AS(下一页)。

这个排序成功地捕捉了先前基于组的RL方法[17, 18, 20]所忽略的长期效用中的细粒度差异。虽然这个例子说明了GiGPO在稀疏奖励环境中的有效性，但它的优势自然地扩展到密集奖励场景，在这些场景中，可以充分利用每步奖励来评估共享状态下单个动作的相对质量。

4.3 组内组策略优化

我们最终将两个级别的优势信号组合成一个组内组优势 ，以在全局（回合）和局部（步骤）尺度上分配信用：
A(a(i)t) = AE(τi) + ω · AS(a(i)t)。(8)

其中ω ∈ R≥0是一个权重系数，用于平衡回合相对优势和步骤相对优势。AE(τi)捕捉了一个回合与组中其他回合相比的好坏，而AS(a(i)t)则在共享的环境状态条件下优化了步骤级的性能。它们共同为LLM智能体的策略优化提供了层级监督。那么，GiGPO的裁剪策略优化目标是：
J_GiGPO(θ) = E_{x~p(X), {τi}^N_i=1 ~ π_θold} [ (1/NT) Σ^N_{i=1} Σ^T_{t=1} min( ρ_θ(a(i)t)A(a(i)t), clip(ρ_θ(a(i)t), 1±ϵ)A(a(i)t) ) ] - βDKL( π_θ(·|x) || π_ref(·|x) )。(9)

其中ρ_θ(a(i)t) = π_θ(a(i)t | s(i)t, x) / π_θold(a(i)t | s(i)t, x)是重要性采样比率，β控制KL惩罚的强度，鼓励策略接近参考策略π_ref。我们在附录D中提供了伪代码。

5 实验

在本节中，我们展示了GiGPO在各种智能体任务上的实证评估。具体来说，我们旨在证明：(1) GiGPO在训练LLM智能体方面的强大能力；(2) GiGPO的消融研究；(3) 在训练过程中，步骤级分组GS(s̃)的动态趋势；(4) GiGPO的计算预算。

5.1 实验设置

基准测试。我们首先在两个具有挑战性的基准上训练LLM智能体：ALFWorld [5]和WebShop [22]。ALFWorld是一个旨在评估LLM智能体执行多步决策能力的具身环境。在每个回合中，智能体收到一个文本目标，并且必须通过与环境的多轮交互来完成它。它包括3,827个任务实例，跨越六类常见的家庭活动：拾取与放置(Pick)、光下检查(Look)、清洁与放置(Clean)、加热与放置(Heat)、冷却与放置(Cool)和拾取两个与放置(Pick2)。WebShop是一个复杂的、基于Web的交互环境，旨在测试LLM智能体在现实在线购物场景中的能力。为了完成任务，智能体必须与一个模拟的基于HTML的购物网站交互，以搜索、导航并最终购买合适的商品。它包含超过110万种产品和12k个用户指令，提供了一个丰富多样的动作空间。此外，我们还在搜索增强的问答任务上评估了GiGPO的多轮工具调用性能，包括单跳问答数据集（NQ [62], TriviaQA [63], PopQA [64]）和多跳问答数据集（HotpotQA [65], 2Wiki [66], MuSiQue [67], Bamboogle [68]）。

基线。对于ALFWorld和WebShop，我们将我们的方法与一系列有竞争力的基线进行比较：(1) 闭源LLM ：GPT-4o [1]和Gemini-2.5-Pro [2]，它们代表了通用推理和语言理解方面的最先进能力。(2) 提示智能体 ：ReAct [29]和Reflexion [30]，它们依赖于上下文提示来引导多步行为，而无需更新参数。(3) RL训练方法：PPO [42]，一种广泛使用的演员-评判算法，需要一个额外的价值模型；以及基于组的无评判方法RLOO [16, 17]和GRPO [18]，它们在轨迹组上进行优势估计。对于搜索增强的问答任务，我们将GiGPO与R1-Instruct、Search-R1 [58]、ZeroSearch [59]和StepSearch [69]进行比较。

训练细节 。我们使用Qwen2.5-1.5B/3B/7B-Instruct [3]作为我们的基础模型。权重系数ω设置为1，没有进一步调整。对于ALFWorld和WebShop，所有RL训练方法（包括我们的和基线）都使用完全相同的超参数配置。基于组的RL方法的采样组大小N设置为8。对于搜索增强的问答任务，我们遵循Search-R1 [58]中的相同设置。我们使用E5 [70]作为检索器。采样组大小N设置为5，最大轮次设置为4。此外，我们引入了基于相似性的GiGPO，其中锚定状态分组是通过对相似度（最长匹配子序列）超过阈值0.9的两个状态进行分组来执行的。完整的训练设置和超参数细节在附录E.1中提供。

5.2 在ALFWorld和WebShop上的性能

表1：在ALFWorld和WebShop上的性能。 结果是3次随机种子的平均值。对于ALFWorld，我们报告了每个子任务的平均成功率（%）以及总体结果。对于WebShop，我们报告了平均得分和平均成功率（%）。GiGPOw/std表示使用Fnorm = std，而GiGPOw/o std使用Fnorm = 1。

类型	方法	ALFWorld	WebShop
		Pick	Look
闭源模型	Prompting GPT-4o	75.3	60.8
	Prompting Gemini-2.5-Pro	92.8	63.3
Qwen2.5-1.5B-Instruct
	Prompting Qwen2.5	5.9	5.5
	Prompting ReAct	17.4	20.5
	Prompting Reflexion	35.3	22.2
RL训练	PPO (with critic)	64.8±3.5	40.5±6.9
RL训练	RLOO	88.3±3.0	52.8±8.6
RL训练	GRPO	85.3±1.5	53.7±8.0
RL训练	GiGPOw/std	94.4±5.9	67.5±4.6
RL训练	GiGPOw/o std	96.0±1.4	76.5±3.9
Qwen2.5-7B-Instruct
	Prompting Qwen2.5	33.4	21.6
	Prompting ReAct	48.5	35.4
	Prompting Reflexion	62.0	41.6
RL训练	PPO (with critic)	92.3±4.0	64.0±8.4
RL训练	RLOO	87.6±4.3	78.2±8.3
RL训练	GRPO	90.8±5.1	66.1±6.7
RL训练	GiGPOw/std	97.7±1.6	82.7±7.9
RL训练	GiGPOw/o std	91.8±5.4	88.6±6.3

表1展示了GiGPO在ALFWorld和WebShop上的强劲表现。如图所示，闭源LLM仅提供中等性能：Gemini-2.5-Pro在ALFWorld上达到60.3%的成功率，在WebShop上为35.9%，而GPT-4o则更落后。仅使用提示的开源智能体（例如，ReAct和Reflexion）相比于普通提示有边际改进，但仍然表现不佳，这突显了在没有后训练的情况下进行长周期控制的困难。RL训练带来了显著的增益：PPO在1.5B模型上将平均ALFWorld成功率提高到54.4%，在7B模型上提高到80.4%，WebShop得分也显著增加。然而，这是以增加复杂性为代价的：需要一个单独的评判网络、超参数调整和更长的训练时间[71, 49]。GRPO和RLOO也产生了强大的性能，同时计算效率更高，证明了基于组的RL在大型LLM训练中的有效性。然而，它们缺乏细粒度的每步反馈，限制了它们在长周期内提供精确信用分配的能力。相比之下，GiGPO通过两级优势估计克服了这一限制，使得GiGPOw/std和GiGPOw/o std都能持续超越GRPO和RLOO。特别是，GiGPOw/o std在1.5B模型上，ALFWorld和WebShop分别比GRPO高出13.3%和10.6%；在7B模型上，分别高出12.6%和9.1%。这些结果凸显了GiGPO更有效、更高效地训练LLM智能体的卓越能力。我们还发现GiGPO使智能体能够表现出涌现的推理行为（见附录F）。

表2：在搜索增强的问答任务上的性能。 GiGPO在NQ和HotpotQA上使用Fnorm = std进行训练。†和⋆分别表示域内和域外数据集。

类型	方法	单跳问答	多跳问答	平均
		NQ†	TriviaQA⋆	PopQA⋆
Qwen2.5-3B-Instruct
RL训练	R1-Instruct	27.0	53.7	19.9
RL训练	Search-R1	34.1	54.5	37.8
RL训练	ZeroSearch	41.4	57.4	44.8
RL训练	StepSearch	-	-	-
RL训练	GiGPO	42.0	59.5	42.4
Qwen2.5-7B-Instruct
RL训练	R1-Instruct	21.0	44.9	17.1
RL训练	Search-R1	39.3	61.0	39.7
RL训练	ZeroSearch	43.6	61.8	51.5
RL训练	StepSearch	-	-	-
RL训练	GiGPO	46.4	64.7	46.1

最后，我们观察到归一化因子Fnorm是任务相关的，而不是普遍有帮助的。在相对困难的任务上（如Look、Pick2和WebShop），标准差缩放（Fnorm = std）可能会夸大来自过难样本或高度不平衡组的梯度，损害更新稳定性；因此，固定Fnorm = 1会产生更高的成功率。然而，在其他任务上Fnorm = 1没有明显优势，两种变体的表现相似，这与[72]中的发现一致。这表明，当奖励方差稳定时，Fnorm = std仍然可以是有益的。

5.3 在问答任务上的性能

如表2所示，GiGPO在多轮搜索增强的问答任务上取得了强大且一致的增益，在3B模型上达到42.1%，在7B模型上达到47.2%，显著优于先前的强基线，如Search-R1和StepSearch。尽管搜索增强的问答是相对短周期的，但GiGPO的步骤级信号仍然产生了有意义的改进。此外，我们观察到GiGPO在工具使用上效率显著更高。在每个查询最多调用3次工具的限制下，7B模型在单跳任务上平均仅需约0.9次调用，在多跳任务上平均约1.6次调用：与OTC [61]的优越性能相匹配，后者在相同任务上分别实现了约1.0和约1.7次调用。这种效率很可能源于GiGPO在多轮决策中有效识别和抑制冗余查询的能力。例如，在重复模式如查询1 → 信息1 → 查询1 → 信息1 → 查询1 → 信息1中，GiGPO将它们分组到同一个步骤级分组中，并在训练期间消除不必要的重复调用，这与我们在图3中介绍的示例类似。

5.4 消融研究

图4：消融结果。 Y轴显示成功率（%）。

接下来，我们进行了一项消融研究，比较了GiGPOw/o std (Fnorm = 1)、GiGPOw/ std (Fnorm = std)、GiGPOw/o AS（无步骤相对优势）和GiGPOw/o AE（无回合相对优势），以评估每个组件对性能的影响。我们使用Qwen2.5-1.5B-Instruct作为智能体的策略。结果呈现在图4中。

如图所示，消除两级优势的任一组件都会显著降低性能。移除回合相对优势（GiGPOw/o AE）导致所有任务的性能大幅下降，因为策略不再接收到稳定的、轨迹范围的信号来鼓励长程连贯性。同样，丢弃步骤相对优势（GiGPOw/o AS）导致了显著的下降，特别是在更复杂和要求更高的任务上，如Cool、Pick2和WebShop，这些任务可能需要在每个决策步骤都需要细致的训练反馈。在这种情况下，精确的每步信用分配对于有效学习和策略优化至关重要。此外，我们可以看到，与结构消融中观察到的相比，GiGPOw/std和GiGPOw/o std之间的相对性能差距相对较小。这表明回合级和步骤级信号的结合是性能提升的主要驱动力，并且每个组件对于有效训练LLM智能体都是至关重要的。

5.5 步骤级分组的动态

在本部分，我们研究了步骤级分组的分布在整个训练过程中的演变，以更好地理解GiGPO的效用。我们使用Qwen2.5-1.5B-Instruct作为基础模型。我们在ALFWorld中训练LLM智能体，并跟踪整个训练过程中步骤级分组大小的变化。

图5：ALFWorld训练期间步骤级分组的动态。左：训练迭代中的成功率。垂直红色标记表示选定的检查点（迭代10, 75, 140）。右：在这些检查点处的步骤级分组大小分布。对于每个锚定状态s̃ ∈ U，分组大小由|GS(s̃)|给出。

如图5所示，我们观察到大小为1的步骤级分组（即|GS(s̃)| = 1）在整个训练过程中仅占<35%。这表明大多数状态（超过65%）在轨迹中重复出现，因此对锚定状态分组做出了贡献。此外，在迭代10时，大的分组大小|GS(s̃)| ≥ 10占了超过20%，反映了训练初期的行为冗余。这与不成熟的策略经常产生无效动作或陷入重复循环的事实是一致的。随着训练的进行，分组大小分布发生显著变化。到迭代75时，我们观察到极端分组大小的大幅减少：10 ≤ |GS(s̃)| < 50从16.2%下降到12.1%，|GS(s̃)| ≥ 50从5.6%下降到3.1%。这种转变表明，智能体正在学习避免以前常见的死胡同和无效动作，并开始表现出更多样化和有目的性的决策。在迭代140时，分布紧密地集中在6到8的分组大小周围。鉴于N设置为8，这种收敛意味着一个回合组内的所有8个轨迹现在的行为都一致：LLM智能体已经为完成任务学习了一个连贯和鲁棒的策略，这与成功率的平台期（>80%）相吻合。

5.6 计算预算

图6：GiGPO的单次迭代训练时间分解。 蓝色条表示与GRPO共享的组件。橙色条显示GiGPO特有的新增部分。Y轴使用断裂尺度以容纳小值。

最后，我们分析了GiGPO的计算预算。GiGPO与GRPO共享相同的核心架构，包括多轮采样、计算旧策略和参考策略的概率以及裁剪策略更新。两种方法都是无评判网络的，并且使用单个演员LLM操作，因此GPU内存使用和LLM采样成本相同。GiGPO引入的主要新增部分是步骤相对优势估计组件，如第4.2节所述。为了评估它们的成本，我们使用Qwen2.5-1.5B-Instruct在ALFWorld中训练一个LLM智能体，并记录了每次迭代训练时间的详细分解。

如图6所示，与采样、计算旧策略和参考策略概率以及策略更新等主导操作相比，新增组件几乎没有带来额外的时间成本，这些主导操作的总时间成本达到每次迭代362.83秒。相比之下，锚定状态分组（涉及哈希图查找）每次迭代仅需0.01秒，而步骤相对优势计算（涉及简单算术）仅增加0.53秒。这些操作占每次迭代总训练时间的<0.002%，证明了GiGPO与GRPO共享相同的高计算效率。

6 结论与局限性

在这项工作中，我们提出了GiGPO，一种新颖的基于组的RL算法，以解决长周期LLM智能体训练中的信用分配挑战。GiGPO引入了一种层级优势估计，实现了细粒度的每步信用分配，同时保留了基于组的RL的效率和稳定性。通过追溯性地对跨轨迹共享相同状态的步骤进行分组，它实现了这一点，而没有产生额外的LLM采样或GPU内存开销。在复杂的智能体环境（ALFWorld和WebShop）和搜索增强的问答任务上的实证评估表明，GiGPO显著优于基于提示的智能体和先前的RL方法。GiGPO的一个潜在局限性是其对状态匹配以构建锚定分组的依赖。在高度复杂的环境中，由于噪声或细微差异，可能很难检测到相同的状态。尽管如此，GiGPO仍然保留了一个强大的性能下限：在极端情况下，如果轨迹之间没有重复的状态（即AS = 0），它自然会退化为GRPO，保留了GRPO在信用分配中的有效性和稳定性。尽管通过引入基于相似性的分组部分缓解了这个问题，但探索更鲁棒的状态匹配策略，例如基于嵌入的表示或领域特定的结构等价性，仍然是一个重要的方向。

致谢

本研究得到了新加坡教育部学术研究基金第一级（RG18/24）的支持。

附录

(此处省略原始论文的附录部分，内容包括开源代码库介绍、更广泛影响、无偏性证明、伪代码、实验细节、提示模板、视觉语言智能体性能、与单轮组RL的正交性、对ω的敏感性分析以及推理行为示例等。)