文献阅读：RL算法Tree-GRPO

标题：TREE SEARCH FOR LLM AGENT REINFORCEMENT LEARNING

arxiv:2509.21240v3 | GitHub: https://github.com/AMAP-ML/Tree-GRPO

一、背景

（一）研究背景与痛点

在多轮 Agentic RL 中，LLM 需要通过"思考-动作-观测"的循环与环境交互来完成复杂任务。现有方法（如 GRPO）通常采用链式独立采样，面临两大核心痛点：

痛点1：LLM rollout 需要消耗大量资源。 现有分组 RL 方法为每个任务采样多条独立轨迹，存在大量冗余。在实际训练中，rollout 阶段占据了主要的训练时间，且多轮交互会产生高昂的工具调用成本（如搜索 API）。
痛点2：长时程的、多轮轨迹的监督信号稀疏。 现有方法大多只在最终结果给出一个标量奖励，整个多轮轨迹共享同一个信用分配。这导致模型难以识别具体哪个中间步骤导致了成功或失败，容易学习到"捷径"或发生训练崩溃。

（二）预备知识

多轮Agent 框架 ：Agent 在每一步 ttt 基于上下文sts_tst生成思考 τt\tau_tτt 和动作 αt\alpha_tαt，环境返回观测 oto_tot，一个完整的T步轨迹表示为H={(τ0,α0,o0),(τ1,α1,o1),...,(τT−1,αT−1,oT−1)}\mathcal{H} = \big\{ (\tau_0, \alpha_0, o_0), (\tau_1, \alpha_1, o_1), \dots, (\tau_{T-1}, \alpha_{T-1}, o_{T-1}) \big\}H={(τ0,α0,o0),(τ1,α1,o1),...,(τT−1,αT−1,oT−1)}，可建模为马尔可夫决策过程 M={S,A,P}\mathcal{M}=\{\mathcal{S}, \mathcal{A}, \mathcal{P}\}M={S,A,P}，S表示状态，A表示动作空间(τt,αt)(τ_t, α_t)(τt,αt)，P表示转移,整个过程可基于LLM的策略参数πθπ_θπθ表述为：
pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)∏t=0T−1 $πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt)$ p_\theta\left(s_{0:T}, \tau_{0:T}, \alpha_{0:T}, o_{0:T}\right)= p(s_0) \prod_{t=0}^{T-1} $\\pi_\\theta(\\tau_t \\mid s_t) \\pi_\\theta(\\alpha_t \\mid s_t, \\tau_t) P_{\\text{env}}(o_{t+1} \\mid \\alpha_t)$ pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)t=0∏T−1 $πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt)$
Agentic RL ：基于结果奖励 R(⋅)R(\cdot)R(⋅) 优化策略 πθ\pi_\thetaπθ，最大化期望回报 J(θ)=EH∼pθ $R(H)$ J(\theta) = \mathbb{E}{H \sim p\theta} $R(H)$ J(θ)=EH∼pθ $R(H)$ 。Tree-GRPO多采用基于组的RL算法，即采样一组 NNN 个候选 rollout，计算组内相对优势A^\hat{A}A^来指导优化。

二、方法

（一）Agent 步骤级树搜索采样

Tree-GRPO 将一个"思考-动作-观测"元组 (τt,αt,ot)(\tau_t, \alpha_t, o_t)(τt,αt,ot) 作为一个树节点，采用"initialize-then-expand"方法。

初始化 ：对于给定问题xix_ixi，并行生成 MMM 条独立的链式轨迹Y={Hi∼πθ(⋅∣xi)}MY = \{ \mathcal{H}^i \sim \pi_{\theta}(\cdot | x_i)\}^MY={Hi∼πθ(⋅∣xi)}M，作为 MMM 棵初始树 T\mathcal{T}T。
采样：从每棵树中随机采样 NNN 个非叶子节点Pi={pi,j∈Ti}NP_i=\{p_{i,j} \in \mathcal{T_i}\}^NPi={pi,j∈Ti}N（即未输出 <answer> 的中间步骤），作为待扩展节点。
扩展：将选中节点Pi,jP_{i,j}Pi,j 从根节点到该节点的完整上下文H<ti={pi,jroot,⋯ ,pi,jfather,pi,j}\mathcal{H}^i_{\lt t} = \{p_{i,j}^{root},\cdots,p_{i,j}^{father},p_{i,j}\}H<ti={pi,jroot,⋯,pi,jfather,pi,j}和原始提示词xix_ixi作为前缀输入，继续生成后续响应Ynew={H≥ti∼πθ(⋅∣xi,H<ti)}NY_{new}= \{\mathcal{H}^i_{\ge t} \sim \pi_{\theta}(\cdot | x_i,\mathcal{H}^i_{\lt t})\}^NYnew={H≥ti∼πθ(⋅∣xi,H<ti)}N。模型会持续进行多轮交互，直到输出 <answer> 或达到最大预算限制。生成结果作为新分支插入原树Ti←Ti∪Ynew.T_i \leftarrow T_i \cup Y_{\mathrm{new}}.Ti←Ti∪Ynew.。此过程重复 LLL 次。

预算计算：

设一条单链 Agent 轨迹的最大期望预算（包含 Token 和工具调用限制）为 BBB。

初始化 MMM 棵树消耗：M⋅BM \cdot BM⋅B。
扩展时，随机选取的中间节点期望深度是最大深度的一半，因此只需生成"后半段"轨迹，期望成本为 B/2B/2B/2。
总期望预算公式：E $Btree$ =M⋅B+L⋅N⋅B/2E $B_{tree}$ = M \cdot B + L \cdot N \cdot B/2E $Btree$ =M⋅B+L⋅N⋅B/2。
注：在实际工程中，BBB 是预设的硬性截断上限（如 max_tool_calls=3），系统通过扣除已有前缀的消耗来动态裁剪新分支，公式用于证明树搜索在期望意义下的高效性。

（二）树结构分组相对优势估计

传统轨迹级优势估计将整个多轮轨迹分配相同的信用：A(H)=A({(τ0,α0,o0)...(τT,αT,oT)})A(H) = A(\{(\tau_0, \alpha_0, o_0)...(\tau_T, \alpha_T, o_T)\})A(H)=A({(τ0,α0,o0)...(τT,αT,oT)})，导致严重的信用分配稀疏问题。

Tree-GRPO 利用树状分叉，将叶子节点的结果奖励回传，在分叉点自然形成偏好学习信号。因为每个树内分支数量有限，可能导致基线估计不可靠，Tree-GRPO将两个层级的优势计算结合了起来：树内优势 (A^Intra−tree\hat{A}_{Intra-tree}A^Intra−tree) 、树间优势 (A^Inter−tree\hat{A}_{Inter-tree}A^Inter−tree) 。

具体公式（Eq. 6）：

A^Intra/Inter−tree(Hi)=R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))std({R(Hj)}jGIntra/Inter−tree(Ti)) \hat{A}_{Intra/Inter-tree}(H^i) = \frac{R(H^i) - mean(\{R(H^j)\}j^{G{Intra/Inter-tree}(T_i)})}{std(\{R(H^j)\}j^{G{Intra/Inter-tree}(T_i)})} A^Intra/Inter−tree(Hi)=std({R(Hj)}jGIntra/Inter−tree(Ti))R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))

最终优势融合（Eq. 7）：

A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi) \hat{A}{tree}(H^i) = \hat{A}{Intra-tree}(H^i) + \hat{A}_{Inter-tree}(H^i) A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi)

Tree-GRPO 的最终目标函数（Eq. 8）在标准 PPO/GRPO 框架下引入该融合优势，并加入 KL 散度约束：

JTree−GRPO(θ)=Ex∼D,H∼πold $1G∑i=1G1∣Hi∣∑t=1∣Hi∣min⁡(ri,t(θ)A\^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A\^tree(Hi))−βDKL(πθ∣∣πref)$ J_{Tree-GRPO}(\theta) = \mathbb{E}{x \sim \mathcal{D}, H \sim \pi{old}} \left $\\frac{1}{G} \\sum_{i=1}\^G \\frac{1}{\|H\^i\|} \\sum_{t=1}\^{\|H\^i\|} \\min(r_{i,t}(\\theta)\\hat{A}_{tree}(H\^i), clip(r_{i,t}(\\theta), 1-\\epsilon, 1+\\epsilon)\\hat{A}_{tree}(H\^i)) - \\beta D_{KL}(\\pi_{\\theta}\|\|\\pi_{ref}) \\right$ JTree−GRPO(θ)=Ex∼D,H∼πold G1i=1∑G∣Hi∣1t=1∑∣Hi∣min(ri,t(θ)A^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A^tree(Hi))−βDKL(πθ∣∣πref)

（三）隐式步骤级偏好学习

1. Assumption 3.1 (二值偏好设定)

对于树中任意中间节点 (x,H<t)(x, H_{<t})(x,H<t)，假设其后续子轨迹分为两类：

获胜 H≥twinH^{win}_{\ge t}H≥twin：最终获得正向奖励 (Reward = 1)。
失败 H≥tlossH^{loss}_{\ge t}H≥tloss：最终获得零奖励 (Reward = 0)。
且两者概率之和为 1。

路径的概率可定义为：pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) = 1 - p\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right) = \prod{\tau=t}^{T} \pi_\theta\left(\mathcal{H}\tau^{\text{win}} \mid x, \mathcal{H}{<\tau}\right)pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)

基于此设定，

step-level DPO 的梯度为：
∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼D $σ(βlogpθ(H\geqtloss)-βlogpθ(H\geqtwin))\cdot(\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss))$ \nabla_{\theta} J_{\text{step-DPO}}(\theta) = \mathbb{E}{(x, \mathcal{H}{<t}, \mathcal{H}{\geq t}^{\text{win}}, \mathcal{H}{\geq t}^{\text{loss}}) \sim \mathcal{D}} \Bigg $\\sigma\\left( \\beta \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) - \\beta \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) \\right) \\cdot \\left( \\nabla_{\\theta} \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) - \\nabla_{\\theta} \\log p_{\\theta}\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) \\right) \\Bigg$ ∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼D $σ(βlogpθ(H\geqtloss)-βlogpθ(H\geqtwin))\cdot(\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss))$
intra-tree GRPO 的梯度为：
∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅ $\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss)$ \nabla_{\theta} J_{\text{Intra-tree}}(\theta) = p_{\theta}(\mathcal{H}{\geq t}^{\text{win}}) \cdot p{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \cdot \left $\\nabla_{\\theta} \\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{\\text{win}}) - \\nabla_{\\theta} \\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{\\text{loss}}) \\right$ ∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅ $\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss)$

2. Proposition 3.1 (结构等价性)

在上述假设下，步骤级 DPO 与树内 GRPO 的梯度估计器具有完全相同的形式：

∇θJunified(θ)=w⏟Weight⋅(∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)⏟Preference Advantage Gradient (偏好优势梯度)) \nabla_\theta J_{unified}(\theta) = \underbrace{w}{\text{Weight}} \cdot \Big( \underbrace{\nabla\theta \log p_\theta(H^{win}{\ge t}) - \nabla\theta \log p_\theta(H^{loss}{\ge t})}{\text{Preference Advantage Gradient (偏好优势梯度)}} \Big) ∇θJunified(θ)=Weight w⋅(Preference Advantage Gradient (偏好优势梯度) ∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))

两者唯一的区别仅在于权重项 www 的计算方式。表明树内GRPO可以被解释为隐式地执行步级偏好优化，从而继承step-level DPO的关键属性。

3. 附录 C 理论证明推导过程

根据前面的设定，H≥twin\mathcal{H}{\geq t}^{win}H≥twin在集合C={H≥twin,H≥tloss}C=\{ \mathcal{H}{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}\}C={H≥twin,H≥tloss}的概率为：

pθ(H≥twin)=∏τ=tTπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elog⁡pθ(H≥twin∣x,H<t)elog⁡pθ(H≥twin∣x,H<t)+elog⁡pθ(H≥tloss∣x,H<t)=σ(log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)),\begin{aligned} p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) &= \prod{\tau=t}^{T} \pi_\theta\left(\mathcal{H}\tau^{\text{win}} \mid x, \mathcal{H}{<\tau}\right) \\ $6pt$ &= p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid C, x, \mathcal{H}{<t}\right) \\ $8pt$ &= \frac{e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right)}} {e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right)} + e^{\log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right)}} \\ $8pt$ &= \sigma\left( \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) - \log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \right), \end{aligned}pθ(H≥twin)=τ=t∏Tπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elogpθ(H≥twin∣x,H<t)+elogpθ(H≥tloss∣x,H<t)elogpθ(H≥twin∣x,H<t)=σ(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)),

σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+e−x1是 Sigmoid 函数。

pθ(H≥tloss)=1−pθ(H≥twin)=σ(log⁡pθ(H≥tloss∣x,H<t)−log⁡pθ(H≥twin∣x,H<t))p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right) = 1 - p\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) = \sigma\left( \log p\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) - \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \right)pθ(H≥tloss)=1−pθ(H≥twin)=σ(logpθ(H≥tloss∣x,H<t)−logpθ(H≥twin∣x,H<t))
对于 step-level DPO, 目标函数 为：

JDPO(θ)=E $logσ(βΔθ)$ =E $log⁡σ(β(log⁡pθ(H≥twin∣x,H\\begin{aligned} J_{DPO}(\theta) &= \mathbb{E}\\log \\sigma(\\beta \\Delta_\\theta) \\ &= \mathbb{E}\\log \\sigma(\\beta (\\log p_{\\theta}(\\mathcal{H}_{\\geq t}\^{win} \\mid x, \\mathcal{H}_{\ \\ \end{aligned} JDPO(θ)=Elogσ(βΔθ)=Elogσ(β(logpθ(H≥twin∣x,H\$

其中偏好被定义为Δθ=log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)\Delta_\theta = \log p_{\theta}(\mathcal{H}{\geq t}^{win} \mid x, \mathcal{H}{<t}) - \log p_{\theta}(\mathcal{H}{\geq t}^{loss} \mid x, \mathcal{H}{<t})Δθ=logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)。设z=βΔθz=\beta \Delta_\thetaz=βΔθ，β\betaβ是温度参数，简化成=1.目标函数的梯度为：

∇θJDPO(θ)=E $\nablaθlogσ(z)$ =ddzlogσ(z)⋅∇θz=σ(−z)⋅ $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$ =σ(logπθ(Hloss)−logπθ(Hwin))⋅ $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$ =p(Hloss)⏟Weight⋅ $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$ ⏟PreferenceAdvantageGradient(偏好优势梯度)\begin{aligned} \nabla_{\theta} J_{DPO}(\theta) &= \mathbb{E} $\\nabla_{\\theta} log\\sigma(z)$ \\ &= \frac{d}{dz}log\sigma(z)\cdot\nabla_{\theta}z \\ &= \sigma(-z)\cdot $\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss})$ \\ &= \sigma(log\pi_{\theta}(\mathcal{H}^{loss})-log\pi_{\theta}(\mathcal{H}^{win})) \cdot $\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss})$ \\ &= \underbrace{p(\mathcal{H}^{loss})}{Weight}\cdot\underbrace{ $\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{win})-\\nabla_{\\theta}log\\pi_{\\theta}(\\mathcal{H}\^{loss})$ }{Preference Advantage Gradient (偏好优势梯度)} \\ \end{aligned} ∇θJDPO(θ)=E $\nablaθlogσ(z)$ =dzdlogσ(z)⋅∇θz=σ(−z)⋅ $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$ =σ(logπθ(Hloss)−logπθ(Hwin))⋅ $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$ =Weight p(Hloss)⋅PreferenceAdvantageGradient(偏好优势梯度) $\nablaθlogπθ(Hwin)-\nablaθlogπθ(Hloss)$
对于有GtreeG_{tree}Gtree个叶子节点的intra-tree GRPO 的目标函数 ：

JIntra-tree(θ)=E $x,H\1Gtree∑i=1GtreeA\^win+A\^lossJ_{\text{Intra-tree}}(\theta) = \mathbb{E}{\left x, \\mathcal{H}_{\} \frac{1}{G{\text{tree}}} \sum_{i=1}^{G_{\text{tree}}} \left \\hat{A}_{\\text{win}} + \\hat{A}_{\\text{loss}} \\rightJIntra-tree(θ)=Ex,H\Gtree1i=1∑GtreeA\^win+A\^loss.$

梯度为：

∇θJIntra-tree(θ)≈E $A\^win∇θlog⁡pθ(H≥twin \| x,H\=pθ(H≥twin | x,H<t)A^win∇θlog⁡pθ(H≥twin | x,H<t)+pθ(H≥tloss | x,H<t)A^loss∇θlog⁡pθ(H≥tloss | x,H<t).\begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &\approx \mathbb{E} \left \\hat{A}_{\\text{win}} \\nabla_\\theta \\log p_\\theta \\left( \\mathcal{H}_{\\geq t}\^{\\text{win}} \\,\\middle\|\\, x, \\mathcal{H}_{\ \\ &= p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}{<t} \right) \hat{A}{\text{win}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}{<t} \right) \hat{A}{\text{loss}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}{<t} \right). \end{aligned}∇θJIntra-tree(θ)≈EA\^win∇θlogpθ(H≥twin x,H\=pθ(H≥twin x,H<t)A^win∇θlogpθ(H≥twin x,H<t)+pθ(H≥tloss x,H<t)A^loss∇θlogpθ(H≥tloss x,H<t).$

在二值奖励下，基线 Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)R_{base} = 1 \cdot p_\theta(H^{win}{\ge t}) + 0 = p\theta(H^{win}{\ge t})Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)。优势函数为：A^win=1−Rbase=pθ(H≥tloss)\hat{A}{win} = 1 - R_{base} = p_\theta(H^{loss}{\ge t})A^win=1−Rbase=pθ(H≥tloss)，A^loss=0−Rbase=−pθ(H≥twin)\hat{A}{loss} = 0 - R_{base} = -p_\theta(H^{win}_{\ge t})A^loss=0−Rbase=−pθ(H≥twin)。

代入策略梯度公式得：

∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlog⁡pθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlog⁡pθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin)pθ(H≥tloss)⏟Weight⋅ $\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss)$ ⏟Preference Advantage Gradient \begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &= p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t} \right) \hat{A}{\text{win}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t} \right) \hat{A}{\text{loss}} \nabla\theta \log p_\theta \left( \mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t} \right) \\ $6pt$ &= p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \cdot p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \\ &\quad - p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \cdot p_\theta\left(\mathcal{H}{\geq t}^{\text{win}} \mid x, \mathcal{H}{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}{\geq t}^{\text{loss}} \mid x, \mathcal{H}{<t}\right) \\ $6pt$ &= \underbrace{p_\theta\left(\mathcal{H}{\geq t}^{\text{win}}\right) p\theta\left(\mathcal{H}{\geq t}^{\text{loss}}\right)}{\text{Weight}} \cdot \underbrace{\left $\\nabla_\\theta \\log p_\\theta\\left(\\mathcal{H}_{\\geq t}\^{\\text{win}}\\right) - \\nabla_\\theta \\log p_\\theta\\left(\\mathcal{H}_{\\geq t}\^{\\text{loss}}\\right) \\right$ }_{\text{Preference Advantage Gradient}} \end{aligned} ∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlogpθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlogpθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlogpθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlogpθ(H≥tloss∣x,H<t)=Weight pθ(H≥twin)pθ(H≥tloss)⋅Preference Advantage Gradient $\nablaθlogpθ(H\geqtwin)-\nablaθlogpθ(H\geqtloss)$

DPO 的权重 ：wDPO=pθ(H≥tloss)w_{DPO} = p_\theta(H^{loss}_{\ge t})wDPO=pθ(H≥tloss)
Tree-GRPO 的权重 ：wTree=pθ(H≥twin)⋅pθ(H≥tloss)w_{Tree} = p_\theta(H^{win}{\ge t}) \cdot p\theta(H^{loss}{\ge t})wTree=pθ(H≥twin)⋅pθ(H≥tloss)
DPO 权重 plossp{loss}ploss 反映了模型对错误路径的执念有多深，旨在通过强力打压错误来拟合离线偏好数据。
Tree-GRPO 权重 pwin⋅plossp_{win} \cdot p_{loss}pwin⋅ploss 反映了模型在当前分叉点的困惑度，旨在通过解决不确定性最高的决策点来推进在线探索。

三、实验

数据集与基线：在 11 个数据集上测试，涵盖单跳 QA、多跳 QA 和 Web-Agent QA。对比基线包括 Direct Inference, Search-o1, ReAct, GRPO, GSPO。
核心结论 ：
1. 性能提升显著：Tree-GRPO 在所有规模模型上均优于链式方法。在多跳 QA 上，对小模型（<3b）带来 16%-69% 的相对提升；在 Web-Agent QA 上（如 GAIA）带来 28% 提升。
2. 预算高效性：在极度受限预算下（如仅 2 个完整 rollout 预算），链式 RL 难以学习，而 Tree-GRPO 实现了 112% 的相对提升。它甚至能用 1/4 的预算超越链式方法。
3. 行为变化：Tree-GRPO 鼓励模型进行更长的交互（平均工具调用次数从 2.4 增至 3.0）。