文献阅读:RL算法Tree-GRPO

arxiv:2509.21240v3 | GitHub: https://github.com/AMAP-ML/Tree-GRPO

一、背景

(一) 研究背景与痛点

在多轮 Agentic RL 中,LLM 需要通过"思考-动作-观测"的循环与环境交互来完成复杂任务。现有方法(如 GRPO)通常采用链式独立采样,面临两大核心痛点:

  • 痛点1:LLM rollout 需要消耗大量资源。 现有分组 RL 方法为每个任务采样多条独立轨迹,存在大量冗余。在实际训练中,rollout 阶段占据了主要的训练时间,且多轮交互会产生高昂的工具调用成本(如搜索 API)。
  • 痛点2:长时程的、多轮轨迹的监督信号稀疏。 现有方法大多只在最终结果给出一个标量奖励,整个多轮轨迹共享同一个信用分配。这导致模型难以识别具体哪个中间步骤导致了成功或失败,容易学习到"捷径"或发生训练崩溃。

(二) 预备知识

  • 多轮Agent 框架 :Agent 在每一步 ttt 基于上下文sts_tst生成思考 τt\tau_tτt 和动作 αt\alpha_tαt,环境返回观测 oto_tot,一个完整的T步轨迹表示为H={(τ0,α0,o0),(τ1,α1,o1),...,(τT−1,αT−1,oT−1)}\mathcal{H} = \big\{ (\tau_0, \alpha_0, o_0), (\tau_1, \alpha_1, o_1), \dots, (\tau_{T-1}, \alpha_{T-1}, o_{T-1}) \big\}H={(τ0,α0,o0),(τ1,α1,o1),...,(τT−1,αT−1,oT−1)},可建模为马尔可夫决策过程 M={S,A,P}\mathcal{M}=\{\mathcal{S}, \mathcal{A}, \mathcal{P}\}M={S,A,P},S表示状态,A表示动作空间(τt,αt)(τ_t, α_t)(τt,αt),P表示转移,整个过程可基于LLM的策略参数πθπ_θπθ表述为:
    pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)∏t=0T−1πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt) p_\theta\left(s_{0:T}, \tau_{0:T}, \alpha_{0:T}, o_{0:T}\right)= p(s_0) \prod_{t=0}^{T-1} \\pi_\\theta(\\tau_t \\mid s_t) \\pi_\\theta(\\alpha_t \\mid s_t, \\tau_t) P_{\\text{env}}(o_{t+1} \\mid \\alpha_t) pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)t=0∏T−1πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt)
  • Agentic RL :基于结果奖励 R(⋅)R(\cdot)R(⋅) 优化策略 πθ\pi_\thetaπθ,最大化期望回报 J(θ)=EH∼pθR(H)J(\theta) = \mathbb{E}{H \sim p\theta}R(H)J(θ)=EH∼pθR(H)。Tree-GRPO多采用基于组的RL算法,即采样一组 NNN 个候选 rollout,计算组内相对优势A^\hat{A}A^来指导优化。

二、方法

(一)Agent 步骤级树搜索采样

Tree-GRPO 将一个"思考-动作-观测"元组 (τt,αt,ot)(\tau_t, \alpha_t, o_t)(τt,αt,ot) 作为一个树节点,采用"initialize-then-expand"方法。

  1. 初始化 :对于给定问题xix_ixi,并行生成 MMM 条独立的链式轨迹Y={Hi∼πθ(⋅∣xi)}MY = \{ \mathcal{H}^i \sim \pi_{\theta}(\cdot | x_i)\}^MY={Hi∼πθ(⋅∣xi)}M,作为 MMM 棵初始树 T\mathcal{T}T。
  2. 采样 :从每棵树中随机采样 NNN 个非叶子节点Pi={pi,j∈Ti}NP_i=\{p_{i,j} \in \mathcal{T_i}\}^NPi={pi,j∈Ti}N(即未输出 <answer> 的中间步骤),作为待扩展节点。
  3. 扩展 :将选中节点Pi,jP_{i,j}Pi,j 从根节点到该节点的完整上下文H<ti={pi,jroot,⋯ ,pi,jfather,pi,j}\mathcal{H}^i_{\lt t} = \{p_{i,j}^{root},\cdots,p_{i,j}^{father},p_{i,j}\}H<ti={pi,jroot,⋯,pi,jfather,pi,j}和原始提示词xix_ixi作为前缀输入,继续生成后续响应Ynew={H≥ti∼πθ(⋅∣xi,H<ti)}NY_{new}= \{\mathcal{H}^i_{\ge t} \sim \pi_{\theta}(\cdot | x_i,\mathcal{H}^i_{\lt t})\}^NYnew={H≥ti∼πθ(⋅∣xi,H<ti)}N。模型会持续进行多轮交互,直到输出 <answer> 或达到最大预算限制。生成结果作为新分支插入原树Ti←Ti∪Ynew.T_i \leftarrow T_i \cup Y_{\mathrm{new}}.Ti←Ti∪Ynew.。此过程重复 LLL 次。

预算计算:

设一条单链 Agent 轨迹的最大期望预算(包含 Token 和工具调用限制)为 BBB。

  • 初始化 MMM 棵树消耗:M⋅BM \cdot BM⋅B。
  • 扩展时,随机选取的中间节点期望深度是最大深度的一半,因此只需生成"后半段"轨迹,期望成本为 B/2B/2B/2。
  • 总期望预算公式:EBtree=M⋅B+L⋅N⋅B/2EB_{tree} = M \cdot B + L \cdot N \cdot B/2EBtree=M⋅B+L⋅N⋅B/2。
    注:在实际工程中,BBB 是预设的硬性截断上限(如 max_tool_calls=3),系统通过扣除已有前缀的消耗来动态裁剪新分支,公式用于证明树搜索在期望意义下的高效性。

(二)树结构分组相对优势估计

传统轨迹级优势估计将整个多轮轨迹分配相同的信用:A(H)=A({(τ0,α0,o0)...(τT,αT,oT)})A(H) = A(\{(\tau_0, \alpha_0, o_0)...(\tau_T, \alpha_T, o_T)\})A(H)=A({(τ0,α0,o0)...(τT,αT,oT)}),导致严重的信用分配稀疏问题。

Tree-GRPO 利用树状分叉,将叶子节点的结果奖励回传,在分叉点自然形成偏好学习信号。因为每个树内分支数量有限,可能导致基线估计不可靠,Tree-GRPO将两个层级的优势计算结合了起来:树内优势 (A^Intra−tree\hat{A}_{Intra-tree}A^Intra−tree)树间优势 (A^Inter−tree\hat{A}_{Inter-tree}A^Inter−tree)

具体公式(Eq. 6):

A^Intra/Inter−tree(Hi)=R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))std({R(Hj)}jGIntra/Inter−tree(Ti)) \hat{A}_{Intra/Inter-tree}(H^i) = \frac{R(H^i) - mean(\{R(H^j)\}j^{G{Intra/Inter-tree}(T_i)})}{std(\{R(H^j)\}j^{G{Intra/Inter-tree}(T_i)})} A^Intra/Inter−tree(Hi)=std({R(Hj)}jGIntra/Inter−tree(Ti))R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))

最终优势融合(Eq. 7):

A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi) \hat{A}{tree}(H^i) = \hat{A}{Intra-tree}(H^i) + \hat{A}_{Inter-tree}(H^i) A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi)

Tree-GRPO 的最终目标函数(Eq. 8)在标准 PPO/GRPO 框架下引入该融合优势,并加入 KL 散度约束:

JTree−GRPO(θ)=Ex∼D,H∼πold1G∑i=1G1∣Hi∣∑t=1∣Hi∣min⁡(ri,t(θ)A\^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A\^tree(Hi))−βDKL(πθ∣∣πref) J_{Tree-GRPO}(\theta) = \mathbb{E}{x \sim \mathcal{D}, H \sim \pi{old}} \left \\frac{1}{G} \\sum_{i=1}\^G \\frac{1}{\|H\^i\|} \\sum_{t=1}\^{\|H\^i\|} \\min(r_{i,t}(\\theta)\\hat{A}_{tree}(H\^i), clip(r_{i,t}(\\theta), 1-\\epsilon, 1+\\epsilon)\\hat{A}_{tree}(H\^i)) - \\beta D_{KL}(\\pi_{\\theta}\|\|\\pi_{ref}) \\right JTree−GRPO(θ)=Ex∼D,H∼πold G1i=1∑G∣Hi∣1t=1∑∣Hi∣min(ri,t(θ)A^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A^tree(Hi))−βDKL(πθ∣∣πref)

(三)隐式步骤级偏好学习

1. Assumption 3.1 (二值偏好设定)

对于树中任意中间节点 (x,H<t)(x, H_{<t})(x,H<t),假设其后续子轨迹分为两类:

  • 获胜 H≥twinH^{win}_{\ge t}H≥twin:最终获得正向奖励 (Reward = 1)。
  • 失败 H≥tlossH^{loss}_{\ge t}H≥tloss:最终获得零奖励 (Reward = 0)。
    且两者概率之和为 1。

路径的概率可定义为:pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) = 1 - p\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right) = \prod{\tau=t}^{T} \pi_\theta\left(\mathcal{H}\tau^{\text{win}} \mid x, \mathcal{H}{<\tau}\right)pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)

基于此设定,

  1. step-level DPO 的梯度为:
    ∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼Dσ(βlog⁡pθ(H≥tloss)−βlog⁡pθ(H≥twin))⋅(∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss))\nabla_{\theta} J_{\text{step-DPO}}(\theta) = \mathbb{E}{(x, \mathcal{H}{<t}, \mathcal{H}{\geq t}^{\text{win}}, \mathcal{H}{\geq t}^{\text{loss}}) \sim \mathcal{D}} \Bigg \\sigma\\left( \\beta \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) - \\beta \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) \\right) \\cdot \\left( \\nabla_{\\theta} \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) - \\nabla_{\\theta} \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) \\right) \\Bigg∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼Dσ(βlogpθ(H≥tloss)−βlogpθ(H≥twin))⋅(∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))
  2. intra-tree GRPO 的梯度为:
    ∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)\nabla_{\theta} J_{\text{Intra-tree}}(\theta) = p_{\theta}(\mathcal{H}{\geq t}^{\text{win}}) \cdot p{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \cdot \left \\nabla_{\\theta} \\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{\\text{win}}) - \\nabla_{\\theta} \\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{\\text{loss}}) \\right∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)

2. Proposition 3.1 (结构等价性)

在上述假设下,步骤级 DPO 与树内 GRPO 的梯度估计器具有完全相同的形式:

∇θJunified(θ)=w⏟Weight⋅(∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)⏟Preference Advantage Gradient (偏好优势梯度)) \nabla_\theta J_{unified}(\theta) = \underbrace{w}{\text{Weight}} \cdot \Big( \underbrace{\nabla\theta \log p_\theta(H^{win}{\ge t}) - \nabla\theta \log p_\theta(H^{loss}{\ge t})}{\text{Preference Advantage Gradient (偏好优势梯度)}} \Big) ∇θJunified(θ)=Weight w⋅(Preference Advantage Gradient (偏好优势梯度) ∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))

两者唯一的区别仅在于权重项 www 的计算方式。表明树内GRPO可以被解释为隐式地执行步级偏好优化,从而继承step-level DPO的关键属性。

3. 附录 C 理论证明推导过程

  1. 根据前面的设定,H≥twin\mathcal{H}{\geq t}^{win}H≥twin在集合C={H≥twin,H≥tloss}C=\{ \mathcal{H}{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}\}C={H≥twin,H≥tloss}的概率为:

    pθ(H≥twin)=∏τ=tTπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elog⁡pθ(H≥twin∣x,H<t)elog⁡pθ(H≥twin∣x,H<t)+elog⁡pθ(H≥tloss∣x,H<t)=σ(log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)),\begin{aligned} p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) &= \prod{\tau=t}^{T} \pi_\theta\left(\mathcal{H}\tau^{\text{win}} \mid x, \mathcal{H}{<\tau}\right) \\6pt &= p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid C, x, \mathcal{H}{<t}\right) \\8pt &= \frac{e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right)}} {e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right)} + e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right)}} \\8pt &= \sigma\left( \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) - \log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \right), \end{aligned}pθ(H≥twin)=τ=t∏Tπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elogpθ(H≥twin∣x,H<t)+elogpθ(H≥tloss∣x,H<t)elogpθ(H≥twin∣x,H<t)=σ(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)),

    σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+e−x1是 Sigmoid 函数。

    pθ(H≥tloss)=1−pθ(H≥twin)=σ(log⁡pθ(H≥tloss∣x,H<t)−log⁡pθ(H≥twin∣x,H<t))p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right) = 1 - p\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) = \sigma\left( \log p\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) - \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \right)pθ(H≥tloss)=1−pθ(H≥twin)=σ(logpθ(H≥tloss∣x,H<t)−logpθ(H≥twin∣x,H<t))

  2. 对于 step-level DPO, 目标函数 为:

    JDPO(θ)=Elog⁡σ(βΔθ)=Elog⁡σ(β(log⁡pθ(H≥twin∣x,H\\begin{aligned} J_{DPO}(\theta) &= \mathbb{E}\\log \\sigma(\\beta \\Delta_\\theta) \\ &= \mathbb{E}\\log \\sigma(\\beta (\\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{win} \\mid x, \\mathcal{H}_{\ \\ \end{aligned} JDPO(θ)=Elogσ(βΔθ)=Elogσ(β(logpθ(H≥twin∣x,H\

    其中偏好被定义为Δθ=log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)\Delta_\theta = \log p_{\theta}(\mathcal{H}{\geq t}^{win} \mid x, \mathcal{H}{<t}) - \log p_{\theta}(\mathcal{H}{\geq t}^{loss} \mid x, \mathcal{H}{<t})Δθ=logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)。设z=βΔθz=\beta \Delta_\thetaz=βΔθ,β\betaβ是温度参数,简化成=1.目标函数的梯度 为:

    ∇θJDPO(θ)=E∇θlogσ(z)=ddzlogσ(z)⋅∇θz=σ(−z)⋅∇θlogπθ(Hwin)−∇θlogπθ(Hloss)=σ(logπθ(Hloss)−logπθ(Hwin))⋅∇θlogπθ(Hwin)−∇θlogπθ(Hloss)=p(Hloss)⏟Weight⋅∇θlogπθ(Hwin)−∇θlogπθ(Hloss)⏟PreferenceAdvantageGradient(偏好优势梯度)\begin{aligned} \nabla_{\theta} J_{DPO}(\theta) &= \mathbb{E}\\nabla_{\\theta} log\\sigma(z) \\ &= \frac{d}{dz}log\sigma(z)\cdot\nabla_{\theta}z \\ &= \sigma(-z)\cdot \\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss}) \\ &= \sigma(log\pi_{\theta}(\mathcal{H}^{loss})-log\pi_{\theta}(\mathcal{H}^{win})) \cdot \\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss}) \\ &= \underbrace{p(\mathcal{H}^{loss})}{Weight}\cdot\underbrace{\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss})}{Preference Advantage Gradient (偏好优势梯度)} \\ \end{aligned} ∇θJDPO(θ)=E∇θlogσ(z)=dzdlogσ(z)⋅∇θz=σ(−z)⋅∇θlogπθ(Hwin)−∇θlogπθ(Hloss)=σ(logπθ(Hloss)−logπθ(Hwin))⋅∇θlogπθ(Hwin)−∇θlogπθ(Hloss)=Weight p(Hloss)⋅PreferenceAdvantageGradient(偏好优势梯度) ∇θlogπθ(Hwin)−∇θlogπθ(Hloss)

  3. 对于有GtreeG_{tree}Gtree个叶子节点的intra-tree GRPO 的目标函数

    JIntra-tree(θ)=Ex,H\1Gtree∑i=1GtreeA\^win+A\^lossJ_{\text{Intra-tree}}(\theta) = \mathbb{E}{\left x, \\mathcal{H}_{\} \frac{1}{G{\text{tree}}} \sum_{i=1}^{G_{\text{tree}}} \left \\hat{A}_{\\text{win}} + \\hat{A}_{\\text{loss}} \\rightJIntra-tree(θ)=Ex,H\Gtree1i=1∑GtreeA\^win+A\^loss.

    梯度为:

    ∇θJIntra-tree(θ)≈EA\^win∇θlog⁡pθ(H≥twin \| x,H\=pθ(H≥twin | x,H<t)A^win∇θlog⁡pθ(H≥twin | x,H<t)+pθ(H≥tloss | x,H<t)A^loss∇θlog⁡pθ(H≥tloss | x,H<t).\begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &\approx \mathbb{E} \left \\hat{A}_{\\text{win}} \\nabla_\\theta \\log p_\\theta \\left( \\mathcal{H}_{\\geq t}\^{\\text{win}} \\,\\middle\|\\, x, \\mathcal{H}_{\ \\ &= p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}{<t} \right) \hat{A}{\text{win}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}{<t} \right) \hat{A}{\text{loss}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}{<t} \right). \end{aligned}∇θJIntra-tree(θ)≈EA\^win∇θlogpθ(H≥twin x,H\=pθ(H≥twin x,H<t)A^win∇θlogpθ(H≥twin x,H<t)+pθ(H≥tloss x,H<t)A^loss∇θlogpθ(H≥tloss x,H<t).

    在二值奖励下,基线 Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)R_{base} = 1 \cdot p_\theta(H^{win}{\ge t}) + 0 = p\theta(H^{win}{\ge t})Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)。优势函数为:A^win=1−Rbase=pθ(H≥tloss)\hat{A}{win} = 1 - R_{base} = p_\theta(H^{loss}{\ge t})A^win=1−Rbase=pθ(H≥tloss),A^loss=0−Rbase=−pθ(H≥twin)\hat{A}{loss} = 0 - R_{base} = -p_\theta(H^{win}_{\ge t})A^loss=0−Rbase=−pθ(H≥twin)。

    代入策略梯度公式得:

    ∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlog⁡pθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlog⁡pθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin)pθ(H≥tloss)⏟Weight⋅∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)⏟Preference Advantage Gradient \begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &= p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t} \right) \hat{A}{\text{win}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t} \right) \hat{A}{\text{loss}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t} \right) \\6pt &= p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \cdot p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \\ &\quad - p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \cdot p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \\6pt &= \underbrace{p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) p\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right)}{\text{Weight}} \cdot \underbrace{\left \\nabla_\\theta \\log p_\\theta\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) - \\nabla_\\theta \\log p_\\theta\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) \\right}_{\text{Preference Advantage Gradient}} \end{aligned} ∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlogpθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlogpθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlogpθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlogpθ(H≥tloss∣x,H<t)=Weight pθ(H≥twin)pθ(H≥tloss)⋅Preference Advantage Gradient ∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)

  • DPO 的权重 :wDPO=pθ(H≥tloss)w_{DPO} = p_\theta(H^{loss}_{\ge t})wDPO=pθ(H≥tloss)
  • Tree-GRPO 的权重 :wTree=pθ(H≥twin)⋅pθ(H≥tloss)w_{Tree} = p_\theta(H^{win}{\ge t}) \cdot p\theta(H^{loss}{\ge t})wTree=pθ(H≥twin)⋅pθ(H≥tloss)
    DPO 权重 plossp
    {loss}ploss 反映了模型对错误路径的执念有多深,旨在通过强力打压错误来拟合离线偏好数据。
    Tree-GRPO 权重 pwin⋅plossp_{win} \cdot p_{loss}pwin⋅ploss 反映了模型在当前分叉点的困惑度,旨在通过解决不确定性最高的决策点来推进在线探索。

三、实验

  • 数据集与基线:在 11 个数据集上测试,涵盖单跳 QA、多跳 QA 和 Web-Agent QA。对比基线包括 Direct Inference, Search-o1, ReAct, GRPO, GSPO。
  • 核心结论
    1. 性能提升显著:Tree-GRPO 在所有规模模型上均优于链式方法。在多跳 QA 上,对小模型(<3b)带来 16%-69% 的相对提升;在 Web-Agent QA 上(如 GAIA)带来 28% 提升。
    2. 预算高效性:在极度受限预算下(如仅 2 个完整 rollout 预算),链式 RL 难以学习,而 Tree-GRPO 实现了 112% 的相对提升。它甚至能用 1/4 的预算超越链式方法。
    3. 行为变化:Tree-GRPO 鼓励模型进行更长的交互(平均工具调用次数从 2.4 增至 3.0)。