多页文档理解强化学习设计思路：DocR1奖励函数设计与数据构建思路

传统GRPO适用于单图/单页任务，无法解决多页文档的两大关键问题：1、需从多页中筛选少量相关证据页；2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架，专门针对多页文档理解优化------先全局理解文档并定位相关证据页，再基于证据页细粒度推理生成答案，而非直接生成结果。

奖励函数设计

格式一致性奖励(riformat(r_{i}^{format}(riformat） ：

二元奖励（0或1），若模型输出严格遵循下表规定的格式（需明确标注推理过程、证据页、最终答案）则得1分，否则为0。目的是保证输出结构的规范性，便于后续解析和验证。
答案准确性奖励(riacc(r_{i}^{acc}(riacc） ：

采用ANLS（Average Normalized Levenshtein Similarity）分数衡量模型生成答案与真实答案的相似度，ANLS是文档QA任务中常用的精准度指标，能有效反映答案的匹配程度。
证据页准确性奖励(rievi(r_{i}^{evi}(rievi） ：

采用F1-style分数计算模型预测证据页与真实证据页的重叠度，如下：

其中：

-PiP_iPi：模型预测的证据页集合，GiG_iGi：真实证据页集合；

-NNN：输入文档的总页数，Ni′N_i'Ni′：模型预测的证据页判断数量（需与NNN相等，否则奖励为0）；
- 设计目的：避免"全标无关页"导致的虚假高准确率，通过F1平衡精确率（预测的证据页是否真相关）和召回率（是否覆盖所有真实证据页）。

优化目标函数如下：

数据构建

阶段1：生成：用Gemini 2.5 Flash模型，根据输入文档和任务提示生成初始标注（含推理过程、证据页、答案），仅保留"生成答案与真实答案一致"的样本；
阶段2：验证（Verification）：将阶段1的标注结果反馈给同一MLLM，让其验证标注的准确性，仅保留"验证结果与初始标注一致"的样本；
训练数据集：EviBench
测试数据集：ArxivFullQA

针对"学术论文理解"多页场景，构建的专门评估基准：
数据规模：8.6k高质量QA样本，基于Arxiv学术论文（来自DocMatrix数据集）；
标注差异：与EviBench相比有两点不同：
1. 阶段1输入为LaTeX格式文本（而非图像），提升QA对生成的准确性；
2. QA对覆盖7类问题：事实类、推理类、比较类、总结类、流程类、动机类、结果类；

训练策略

1. 初始化模型

选择Qwen2.5-VL-Instruct（7B参数）作为初始化模型，原因：多页文档的思维链（CoT）训练数据稀缺，人工标注成本极高；该模型已通过指令微调具备基础推理能力，可跳过GRPO的"冷启动"阶段，提升训练效率。

2. 两阶段课程学习

阶段1：单页数据热身（1个epoch）：仅用EviBench的单页样本训练，目标是让模型熟悉EviGRPO的输出格式（推理+证据页+答案）和基础推理逻辑，激活 latent 推理能力；
阶段2：多页数据训练（1个epoch）：用EviBench的多页样本训练，重点提升模型的证据页检索和跨页多跳推理能力；

实验性能

参考文献

DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding，https://arxiv.org/pdf/2508.07313v3