【强化学习】长上下文可验证奖励强化学习：原理推导与系统架构

长上下文可验证奖励强化学习：原理推导与系统架构

摘要：本文系统阐述一种面向大语言模型长上下文推理能力的强化学习框架。通过形式化分析传统可验证奖励强化学习（RLVR）在长文本场景中的梯度消失机理，引入基于块标识符的可验证上下文奖励机制，构建双信号协同优化目标。内容涵盖理论推导、架构设计、奖励调制策略及工程实践，为长文本推理模型的训练与部署提供完整技术参考。

1. 问题背景与核心挑战

1.1 长上下文推理的范式演进

大语言模型（LLM）的上下文窗口已从早期 4K 扩展至 1M 量级。然而，窗口长度的物理扩展并不等同于有效利用能力的线性增长。长上下文推理的本质难点在于上下文锚定（Contextual Grounding）：模型必须先从海量外部文本中准确定位并提取与问题相关的证据片段，再基于这些证据进行逻辑推演与答案生成。这一过程可形式化为一个两阶段决策问题：

πθ(Z,y∣X,Q)=πθ(Z∣X,Q)⋅πθ(y∣Z,X,Q)\pi_{\theta}(Z, y \mid X, Q) = \pi_{\theta}(Z \mid X, Q) \cdot \pi_{\theta}(y \mid Z, X, Q)πθ(Z,y∣X,Q)=πθ(Z∣X,Q)⋅πθ(y∣Z,X,Q)

其中 XXX 为长文档，QQQ 为查询，ZZZ 为选中的证据块集合，yyy 为最终答案。传统监督微调（SFT）与直接偏好优化（DPO）虽能缓解该问题，但在复杂推理场景下仍显不足。

1.2 可验证奖励强化学习的瓶颈

强化学习 with 可验证奖励（RLVR）通过答案正确性 rans(y)∈{0,1}r_{\text{ans}}(y) \in \{0, 1\}rans(y)∈{0,1} 提供稀疏但确定的学习信号，在数学推理与代码生成等自包含任务中取得显著成功。然而，将其直接迁移至长上下文场景时，出现上下文召回停滞现象：训练初期答案准确率可能略有提升，但模型检索相关证据块的能力迅速饱和，进而对答案正确率形成硬天花板。

其根本原因在于奖励的稀疏性。仅当最终答案 yyy 完全正确时，策略才能获得非零奖励，而答案正确又高度依赖于所有关键证据块被正确选中这一低概率联合事件。这使得证据检索头的梯度信号极度微弱，形成优化死锁。

1.3 梯度消失的形式化诊断

设文档被划分为 NNN 个语义块 {c1,c2,...,cN}\{c_1, c_2, \dots, c_N\}{c1,c2,...,cN}，策略通过 Logit sjs_jsj 控制块 cjc_jcj 的选中概率 pj=σ(sj)p_j = \sigma(s_j)pj=σ(sj)。定义 zj∈{0,1}z_j \in \{0,1\}zj∈{0,1} 为选择指示变量，Ej\mathcal{E}_jEj 为除 cjc_jcj 外其余关键块全部被正确选中且答案推导正确的事件。在仅使用答案奖励时，期望奖励对 sjs_jsj 的梯度可分解为：

∇sjE $rans$ =pj(1−pj)⋅δˉj⋅Pr⁡θ(Ej)\nabla_{s_j} \mathbb{E} $r_{\\text{ans}}$ = p_j(1-p_j) \cdot \bar{\delta}j \cdot \Pr{\theta}(\mathcal{E}_j)∇sjE $rans$ =pj(1−pj)⋅δˉj⋅θPr(Ej)

其中 δˉj\bar{\delta}_jδˉj 为答案正确性对 zjz_jzj 的期望偏导上界。当上下文长度增加、关键证据块数量 ∣G∣|G|∣G∣ 增大时，联合事件 Ej\mathcal{E}jEj 的概率 Pr⁡θ(Ej)\Pr{\theta}(\mathcal{E}_j)Prθ(Ej) 呈指数级衰减。因此，答案唯一奖励导致上下文锚定头面临梯度消失，使得模型无法学习从长文本中定位证据。

2. 理论基础：非消失锚定信号

2.1 上下文奖励的单调性公理

为解决上述瓶颈，引入上下文奖励 rctx(Z,G)r_{\text{ctx}}(Z, G)rctx(Z,G)，其满足单调性：每当模型多选中一个真实关键块 ck∈Gc_k \in Gck∈G，奖励严格递增。为便于分析，采用加权可加形式：

rctx(Z,G)=∑ck∈Gαk1{ck∈Z},αk>0r_{\text{ctx}}(Z, G) = \sum_{c_k \in G} \alpha_k \mathbf{1}\{c_k \in Z\}, \quad \alpha_k > 0rctx(Z,G)=ck∈G∑αk1{ck∈Z},αk>0

该形式确保每个关键块的正确选中都能独立贡献正向反馈，无需等待完整证据集 GGG 被全部召回。

2.2 总奖励的梯度下界定理

将总奖励定义为答案奖励与上下文奖励的线性组合：

rtotal(y,Z)=rans(y)+rctx(Z,G)r_{\text{total}}(y, Z) = r_{\text{ans}}(y) + r_{\text{ctx}}(Z, G)rtotal(y,Z)=rans(y)+rctx(Z,G)

命题（非消失锚定信号） ：对于上述总奖励，任意关键块 cj∈Gc_j \in Gcj∈G 对应的 Logit sjs_jsj 的期望梯度满足：

∇sjE $rtotal$ =∇sjE $rans$ ⏟来自答案奖励+αjVar(zj)+∑k≠j,ck∈GαkCov(zk,zj)⏟来自上下文奖励\nabla_{s_j} \mathbb{E} $r_{\\text{total}}$ = \underbrace{\nabla_{s_j} \mathbb{E} $r_{\\text{ans}}$ }{\text{来自答案奖励}} + \underbrace{\alpha_j \text{Var}(z_j) + \sum{k \neq j, c_k \in G} \alpha_k \text{Cov}(z_k, z_j)}_{\text{来自上下文奖励}}∇sjE $rtotal$ =来自答案奖励 ∇sjE $rans$ +来自上下文奖励 αjVar(zj)+k=j,ck∈G∑αkCov(zk,zj)

由于 Var(zj)=pj(1−pj)>0\text{Var}(z_j) = p_j(1-p_j) > 0Var(zj)=pj(1−pj)>0 恒成立，且与联合事件 Ej\mathcal{E}_jEj 无关，上下文奖励项提供了稠密、非消失 的学习信号。若策略倾向于同时选中相关块（即 Cov(zk,zj)≥0\text{Cov}(z_k, z_j) \geq 0Cov(zk,zj)≥0），交叉协方差项将进一步增强该信号。这从理论上证明：奖励中间锚定步骤是解决长上下文 RLVR 优化瓶颈的充分条件。

2.3 直观机理阐释

可将上述过程类比为多层神经网络中的梯度传播。答案奖励相当于稀疏地监督最顶层输出，而上下文奖励则相当于在隐藏层引入辅助监督信号（Auxiliary Supervision）。当顶层信号因链式法则中的多概率连乘而衰减时，隐藏层的直接监督确保了底层参数仍能接收有效更新。在长上下文场景中，"隐藏层"即证据块的选择决策，上下文奖励正是对该层的显式正则化。

3. 系统架构设计

3.1 总体架构概览

本框架采用双信号协同、三阶段流水线架构，由数据合成层、策略生成层与优化计算层构成。整体遵循"先定位、后推理"的认知顺序，强制模型显式输出证据块标识符，再基于选中块生成答案。
优化层
策略层
数据层
参数更新
文档采集
语义分块
问答合成
质量过滤
上下文编码
块选择头
答案生成头
Fβ计算
奖励调制
策略梯度

3.2 数据合成管道设计

高质量的长上下文问答数据是训练基石。数据层采用聚类驱动、拒绝采样、难度筛选三阶段策略：

语义聚类与分块 ：对原始长文档（书籍、论文、代码库，长度 8K--64K tokens）进行语义连贯性分析，生成 NNN 个语义块 {ck}\{c_k\}{ck}。
问答候选生成 ：使用强基座模型（如 Qwen3-235B-A22B）针对每篇文档生成多组候选 (Q,A,G)(Q, A, G)(Q,A,G)，其中 GGG 为支撑答案的参考块集合。
拒绝采样评分：同一模型作为评判器，对每组候选的正确性与证据相关性进行 1--10 分评分。每篇文档仅保留最高分候选，形成单文档最优对。
难度过滤 ：剔除模型在完整上下文下已能轻易答对（评分 ≥8\geq 8≥8）的简单问题，保留对模型具有挑战性的样本，防止训练信号退化。

3.3 策略层：双头生成机制

策略层强制模型遵循结构化输出格式，将隐式的证据检索转化为显式的可验证动作：

复制代码

<useful_chunks>
<CHUNK_i>, <CHUNK_j>, ...
</useful_chunks>
<answer>
...
</answer>

块选择头 负责从 NNN 个候选块中输出子集 ZZZ 的标识符列表；答案生成头 基于 ZZZ 对应的文本片段生成最终答案 yyy。这种显式分解使得中间动作 ZZZ 可被独立评估，为上下文奖励的计算提供接口。

3.4 优化层：奖励计算与策略梯度

优化层接收策略输出 (Z,y)(Z, y)(Z,y) 与真实标签 (G,y∗)(G, y^*)(G,y∗)，计算总奖励并执行策略梯度更新。框架兼容 PPO 与 GRPO 等标准算法，核心差异在于奖励函数的扩展。

4. 奖励调制机制

4.1 Fβ 分数的统计基础

单纯的召回率 ∣Z∩G∣∣G∣\frac{|Z \cap G|}{|G|}∣G∣∣Z∩G∣ 会激励模型选择全部块以获取满分，导致精确率崩溃。因此采用 Fβ_\betaβ 分数作为 grounding 质量的归一化度量：

Fβ(Z,G)=(1+β2)Precision(Z,G)⋅Recall(Z,G)(β2⋅Precision(Z,G))+Recall(Z,G)F_{\beta}(Z, G) = (1 + \beta^2) \frac{\text{Precision}(Z, G) \cdot \text{Recall}(Z, G)}{(\beta^2 \cdot \text{Precision}(Z, G)) + \text{Recall}(Z, G)}Fβ(Z,G)=(1+β2)(β2⋅Precision(Z,G))+Recall(Z,G)Precision(Z,G)⋅Recall(Z,G)

其中精确率与召回率定义为：

Precision=∣Z∩G∣∣Z∣,Recall=∣Z∩G∣∣G∣\text{Precision} = \frac{|Z \cap G|}{|Z|}, \quad \text{Recall} = \frac{|Z \cap G|}{|G|}Precision=∣Z∣∣Z∩G∣,Recall=∣G∣∣Z∩G∣

参数 β\betaβ 控制召回权重。当 β=2\beta = 2β=2 时，召回率的重要性为精确率的四倍，确保模型优先覆盖全部关键证据，避免因遗漏导致的答案推导失败。

4.2 调制上下文奖励公式

为实现 grounding 能力与答案正确性的协同进化，设计如下调制奖励：

rctx(y,Z,G)=η⋅Fβ(Z,G)+(1−η)⋅rans(y)⋅Fβ(Z,G)r_{\text{ctx}}(y, Z, G) = \eta \cdot F_{\beta}(Z, G) + (1 - \eta) \cdot r_{\text{ans}}(y) \cdot F_{\beta}(Z, G)rctx(y,Z,G)=η⋅Fβ(Z,G)+(1−η)⋅rans(y)⋅Fβ(Z,G)

该公式包含两个互补组件：

无条件锚定奖励 η⋅Fβ(Z,G)\eta \cdot F_{\beta}(Z, G)η⋅Fβ(Z,G)：无论答案对错，只要 grounding 质量高即可获得稳定信号。这保证了训练初期模型即使答案错误，仍能学习证据定位。
协同成功奖励 (1−η)⋅rans(y)⋅Fβ(Z,G)(1-\eta) \cdot r_{\text{ans}}(y) \cdot F_{\beta}(Z, G)(1−η)⋅rans(y)⋅Fβ(Z,G)：仅当答案正确时，高质量 grounding 才能获得全额回报。这防止模型孤立地优化块选择而忽视最终目标，实现"手段--目的"统一。

最终优化目标为：

J(θ)=E(X,Q,G)∼D $E(Z,y)∼πθ(Z,y∣X,Q)\[rans(y)+rctx(y,Z,G)$ ]J(\theta) = \mathbb{E}_{(X,Q,G) \sim \mathcal{D}} \left $\\mathbb{E}_{(Z,y) \\sim \\pi_{\\theta}(Z,y \\mid X,Q)} \\left\[ r_{\\text{ans}}(y) + r_{\\text{ctx}}(y, Z, G) \\right$ \right]J(θ)=E(X,Q,G)∼D $E(Z,y)∼πθ(Z,y∣X,Q)\[rans(y)+rctx(y,Z,G)$ ]

4.3 超参数的工程约束

参数	典型值	作用域	约束说明
η\etaη	0.1	$0,1$ $0, 1$ $0,1$	过小则 grounding 信号弱，过大则答案正确性激励不足
β\betaβ	2.0	$0.5,5$ $0.5, 5$ $0.5,5$	小于 1 偏向精确率，大于 3 易引入噪声块容忍
块粒度	512--1024 tokens	文档相关	过粗导致定位模糊，过细增加序列长度负担
采样数	8	GRPO 组大小	影响基线方差与训练稳定性

5. 知识图谱与概念关联

RLVR范式
长上下文推理
上下文锚定
梯度消失
可验证奖励
Fβ分数
双信号协同
证据块标识
稠密监督
稀疏奖励

上图展示了核心概念的因果链条：传统 RLVR 依赖稀疏答案奖励，在长上下文中引发梯度消失，导致上下文锚定失效；本框架通过可验证的证据块标识与 Fβ_\betaβ 分数引入稠密监督，经由双信号协同机制重建有效的锚定学习路径。

6. 模块协同与接口设计

6.1 上下文奖励与答案奖励的协同

优化侧
评估侧
生成侧
输入侧
更新
更新
长文档
用户查询
真实标签
块选择
答案推理
Fβ计算模块
答案判题器
奖励调制器
GRPO优化器

该架构中，块选择与答案生成构成策略的前后端，评估侧通过独立模块分别计算 grounding 质量与答案正确性，最终在奖励调制器中按 η\etaη 比例融合，输入 GRPO 优化器完成策略更新。

6.2 数据管道与策略训练的接口

质量反馈
参数更新
原始语料
语义聚类
QA合成器
评分裁判
拒绝采样
难度筛选
训练数据集
策略模型
GRPO训练

数据管道以闭环质量控制为核心：合成器生成候选，裁判模型评分，拒绝采样筛选最优，难度过滤剔除简单样本，最终形成高信息密度的训练集，与策略训练层通过标准数据加载接口对接。

7. 实验验证与归因分析

7.1 实验配置

实验覆盖三种主流基座模型：LLaMA-3.1-8B、Qwen2.5-7B-1M 与 Qwen2.5-14B-1M。训练数据为 46K 合成长上下文问答对，上下文长度上限 64K tokens，回答长度上限 4096 tokens。优化器采用 AdamW，恒定学习率 10−610^{-6}10−6，5 步线性预热，GRPO 组大小为 8。

评估基准包括：

RULER-QA：针毡检索与推理问答，测试精准定位能力；
LongBench v2：综合长上下文理解基准；
LongReason：长文本复杂推理数据集。

7.2 主实验结果

在标准 RLVR 与本框架之间进行对照实验，结果如下：

模型	基准	标准 RLVR	本框架	绝对提升
Qwen2.5-14B-1M	RULER-QA	73.17	88.90	+15.73
Qwen2.5-14B-1M	LongBench v2	40.2	46.5	+6.3
Qwen2.5-14B-1M	LongReason	73.55	78.42	+4.87
Qwen2.5-7B-1M	LongBench v2	36.8	42.1	+5.3
LLaMA-3.1-8B	LongBench v2	31.5	37.8	+6.3

结果表明，本框架在不同规模与架构的模型上均实现一致且显著的提升，尤其在需要精准证据定位的 RULER-QA 任务上提升幅度最大。

7.3 消融实验与机制归因

组件消融：单独使用答案奖励（Answer-Only）时，上下文召回率迅速饱和，答案准确率随之停滞；单独使用上下文奖励（Context-Only）时，初期上下文召回率快速上升，但因缺乏最终答案约束，后期答案准确率下降。唯有双信号协同（Full Framework）实现两者的持续共同增长。

数据质量消融：

拒绝采样质量至关重要：最优样本（评分最高）在 LongBench v2 上得 38.6，中位样本降至 36.6，最差样本仅 34.8；
难度过滤策略中，仅过滤简单问题效果最佳（38.6），过滤困难问题导致性能暴跌至 35.8，与无过滤（35.6）接近。说明困难样本是培养复杂推理能力的必要原料。

超参数敏感性：

η\etaη 在 0.05--0.2 区间性能稳健，η=0.1\eta = 0.1η=0.1 时达到最优；
β=2\beta = 2β=2 时召回优先策略在多数基准上占优；
每文档块数在 8--16 之间平衡了定位精度与计算开销。

8. 工程部署与最佳实践

8.1 推理时部署策略

训练后的模型在推理阶段无需输出证据块标识符即可直接生成答案，但保留该能力可用于：

可解释性增强：输出选中块作为答案溯源依据；
人机协同验证：用户可审查证据块相关性，及时发现幻觉；
Agent 扩展：在 Agent 工作流中，模型可处理更大粒度的上下文块，减少多轮交互中的信息损耗。

8.2 训练稳定性保障

奖励尺度归一化 ：对 FβF_{\beta}Fβ 与 ransr_{\text{ans}}rans 分别进行组内 z-score 归一化，防止数值尺度差异导致梯度主导；
KL 散度约束：在 GRPO 中保留参考模型的 KL 惩罚，避免策略在稠密奖励诱惑下偏离基座分布过远；
课程学习：初期使用较短文档（8K--16K）与较少块数，逐步增加至 64K，降低早期优化难度。

8.3 与外部检索系统的协同

本框架的上下文锚定能力与外部检索增强生成（RAG）正交互补。在 RAG 管道中，本框架训练的模型可作为重排序与精读器，对检索器返回的 Top-K 块进行二次筛选与深度推理，而非被动接受检索结果。这种"检索--锚定--推理"三级架构可进一步扩展至百万级上下文场景。

9. 结论与前沿展望

本文从优化理论出发，形式化证明了传统 RLVR 在长上下文场景中的梯度消失瓶颈，并提出了基于可验证上下文奖励的系统性解决方案。核心结论包括：

稀疏奖励的结构性缺陷：仅依赖最终答案正确性的奖励机制，其梯度随证据块数量增加而指数衰减，导致上下文锚定头无法学习；
稠密奖励的充分性：对每个关键证据块的独立奖励足以提供非消失梯度，且与标准策略梯度算法兼容；
协同调制的重要性：无条件锚定奖励与条件成功奖励的线性组合，既保障了训练初期的信号强度，又防止了目标偏离；
数据质量的放大效应：高难度样本与高质量合成数据是释放方法潜力的前提。

未来研究方向包括：将可验证上下文奖励推广至多模态长上下文（视频、音频序列），探索自适应块粒度策略以平衡定位精度与计算效率，以及结合过程奖励模型（PRM）对块内细粒度推理步骤进行进一步监督。

附录 A：核心梯度推导补充

A.1 答案唯一奖励的梯度上界

设 rans(y)=1{y=y∗}r_{\text{ans}}(y) = \mathbf{1}\{y = y^*\}rans(y)=1{y=y∗}，且 yyy 正确当且仅当所有关键块被选中且后续推理无误。记 q=Pr⁡θ(答案正确)q = \Pr_{\theta}(\text{答案正确})q=Prθ(答案正确)，则：

∇sjE $rans$ =∂q∂pj⋅∂pj∂sj=∂q∂pj⋅pj(1−pj)\nabla_{s_j} \mathbb{E} $r_{\\text{ans}}$ = \frac{\partial q}{\partial p_j} \cdot \frac{\partial p_j}{\partial s_j} = \frac{\partial q}{\partial p_j} \cdot p_j(1-p_j)∇sjE $rans$ =∂pj∂q⋅∂sj∂pj=∂pj∂q⋅pj(1−pj)

由于 q≤∏ck∈Gpk⋅Pr⁡(推理正确∣Z⊇G)q \leq \prod_{c_k \in G} p_k \cdot \Pr(\text{推理正确} \mid Z \supseteq G)q≤∏ck∈Gpk⋅Pr(推理正确∣Z⊇G)，当 ∣G∣|G|∣G∣ 增大时 qqq 极小，故 ∂q∂pj\frac{\partial q}{\partial p_j}∂pj∂q 受 q/pjq/p_jq/pj 约束，整体梯度呈消失趋势。

A.2 总奖励梯度的协方差展开

对于 rctx=∑ck∈Gαkzkr_{\text{ctx}} = \sum_{c_k \in G} \alpha_k z_krctx=∑ck∈Gαkzk，有：

∇sjE $rctx$ =∑ck∈Gαk∇sjE $zk$ =αjpj(1−pj)+∑k≠jαkCov(zk,zj)\nabla_{s_j} \mathbb{E} $r_{\\text{ctx}}$ = \sum_{c_k \in G} \alpha_k \nabla_{s_j} \mathbb{E} $z_k$ = \alpha_j p_j(1-p_j) + \sum_{k \neq j} \alpha_k \text{Cov}(z_k, z_j)∇sjE $rctx$ =ck∈G∑αk∇sjE $zk$ =αjpj(1−pj)+k=j∑αkCov(zk,zj)

其中 ∇sjE $zk$ =Cov(zk,zj)\nabla_{s_j} \mathbb{E} $z_k$ = \text{Cov}(z_k, z_j)∇sjE $zk$ =Cov(zk,zj) 源于指数族分布的恒等式 ∇ηE $T(x)$ =Var(T(x))\nabla_{\eta} \mathbb{E} $T(x)$ = \text{Var}(T(x))∇ηE $T(x)$ =Var(T(x)) 的推广。该推导不依赖于答案正确性，故对任意 pj∈(0,1)p_j \in (0,1)pj∈(0,1) 均保持 O(1)O(1)O(1) 量级。

参考文献与延伸阅读

Guo et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.
Lambert et al. (2024). Reinforcement Learning from Verifiable Rewards.
Shao et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
Su et al. (2022). RoFormer: Enhanced Transformer with Rotary Position Embedding.
Wan et al. (2025). Long-Context Alignment and Reasoning.
Yue et al. (2025); Wen et al. (2025). Internal Knowledge Refinement vs. External Grounding in RLVR.