多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路

传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化------先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。

奖励函数设计

  • 格式一致性奖励(riformat(r_{i}^{format}(riformat)

    二元奖励(0或1),若模型输出严格遵循下表规定的格式(需明确标注推理过程、证据页、最终答案)则得1分,否则为0。目的是保证输出结构的规范性,便于后续解析和验证。

  • 答案准确性奖励(riacc(r_{i}^{acc}(riacc)

    采用ANLS(Average Normalized Levenshtein Similarity)分数衡量模型生成答案与真实答案的相似度,ANLS是文档QA任务中常用的精准度指标,能有效反映答案的匹配程度。

  • 证据页准确性奖励(rievi(r_{i}^{evi}(rievi)

    采用F1-style分数计算模型预测证据页与真实证据页的重叠度,如下:

    其中:

    -PiP_iPi:模型预测的证据页集合,GiG_iGi:真实证据页集合;

    -NNN:输入文档的总页数,Ni′N_i'Ni′:模型预测的证据页判断数量(需与NNN相等,否则奖励为0);

    • 设计目的:避免"全标无关页"导致的虚假高准确率,通过F1平衡精确率(预测的证据页是否真相关)和召回率(是否覆盖所有真实证据页)。

优化目标函数如下:

数据构建

  • 阶段1:生成:用Gemini 2.5 Flash模型,根据输入文档和任务提示生成初始标注(含推理过程、证据页、答案),仅保留"生成答案与真实答案一致"的样本;

  • 阶段2:验证(Verification):将阶段1的标注结果反馈给同一MLLM,让其验证标注的准确性,仅保留"验证结果与初始标注一致"的样本;

  • 训练数据集:EviBench

  • 测试数据集:ArxivFullQA

    针对"学术论文理解"多页场景,构建的专门评估基准:

  • 数据规模:8.6k高质量QA样本,基于Arxiv学术论文(来自DocMatrix数据集);

  • 标注差异:与EviBench相比有两点不同:

    1. 阶段1输入为LaTeX格式文本(而非图像),提升QA对生成的准确性;
    2. QA对覆盖7类问题:事实类、推理类、比较类、总结类、流程类、动机类、结果类;

训练策略

1. 初始化模型

选择Qwen2.5-VL-Instruct(7B参数)作为初始化模型,原因:多页文档的思维链(CoT)训练数据稀缺,人工标注成本极高;该模型已通过指令微调具备基础推理能力,可跳过GRPO的"冷启动"阶段,提升训练效率。

2. 两阶段课程学习

  • 阶段1:单页数据热身(1个epoch):仅用EviBench的单页样本训练,目标是让模型熟悉EviGRPO的输出格式(推理+证据页+答案)和基础推理逻辑,激活 latent 推理能力;
  • 阶段2:多页数据训练(1个epoch):用EviBench的多页样本训练,重点提升模型的证据页检索和跨页多跳推理能力;

实验性能

参考文献

DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding,https://arxiv.org/pdf/2508.07313v3

相关推荐
Raink老师4 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx234 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI5 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372985 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询5 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju5 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方5 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114246 小时前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构
新知图书6 小时前
LangGraph中的记忆存储
人工智能·langgraph·智能体设计·多智能体设计
冬奇Lab7 小时前
Claude Code 实战经验分享(上篇):从启动到并发协同
人工智能·ai编程·claude