RLVR训练多模态文档解析模型-olmOCR 2技术方案（模型、数据和代码均开源）

往期相关：

olmOCR 2相关对比：

olmOCR 2 是一套面向文档 OCR 的端到端解决方案，其核心方法围绕RLVR，通过 "合成数据规模化 - 单元测试定奖励 - RL 训练提性能" 的闭环，解决传统 OCR 系统在复杂场景（数学公式、表格、多列布局）中的痛点。

传统OCR系统的性能评估依赖编辑距离 ，计算模型输出与Ground Truth的字符级差异（插入、删除、替换次数）。

为解决上述问题，设计了下面6类可验证的二进制单元测试（结果仅"通过（PASS）"或"失败（FAIL）"），覆盖文档OCR的需求：

测试类型	核心功能
文本存在性	验证特定短语（如关键句子、公式）是否精确出现在输出中
文本不存在性	验证无关内容（如页眉、页脚、页码）是否未出现在输出中
自然阅读顺序	验证句子/段落的顺序是否符合人类阅读习惯（如图1中"绿色→黄色"不被红色打断）
表格准确性	验证表格单元格的相对位置与数值是否正确（如"Model"在"GPT-4-turbo"上方）
数学公式准确性	用KaTeX渲染模型输出与参考公式，验证视觉结构是否一致（如图2）
基线鲁棒性	验证无长重复n-gram、无非目标语言字符（避免模型幻觉）

这些测试的优势在于：

手动为每个文档设计单元测试耗时极长（原文提到"需数小时/文档"），无法支撑RL训练的大规模数据需求。因此，文章开发了全自动合成数据生成 pipeline，实现"文档→HTML→单元测试"的端到端规模化，核心流程分三步：

为确保合成数据的挑战性（覆盖真实OCR痛点，避免"模板化数据"，确保数据多样性，与真实世界OCR需求对齐。），文章选择高难度文档样本 ：

数据来源arXiv数学论文（含复杂公式）、旧扫描件（低分辨率）、多列布局文档、含复杂表格的文档。

HTML是生成单元测试的关键：其语义标签（如<header>、<footer>、<table>、KaTeX公式）可直接用于自动提取测试用例。转换过程依赖通用VLM（Claude-sonnet-4-20250514） ，分三阶段迭代优化：

阶段	核心任务	输入	输出
1. 布局分析	让VLM识别文档结构：列数、图像/表格位置、页眉/页脚区域、公式位置等	原始PDF页面图像	布局结构描述（如"2列，右上角有表格"）
2. 内容渲染	让VLM基于布局分析，生成与原始PDF尺寸一致的语义HTML	原始图像+布局描述	初始HTML（含文本、KaTeX公式、HTML表格）
3. 输出优化	渲染初始HTML为图像，与原始PDF对比，让VLM修正差异（如字体、间距、公式格式）	原始图像+初始HTML+渲染图像	优化后的最终HTML

利用HTML的结构化信息，程序化提取单元测试用例，无需人工干预：

最终生成的合成数据集 olmOCR2-synthmix-1025 包含：2186个PDF页面 → 30381个单元测试用例，为RL训练提供充足数据。

olmOCR 2的训练分为监督微调（SFT） 和强化学习（RLVR） 两阶段，结合模型融合（Souping）进一步提升性能：

让模型掌握基础的文档解析能力（文本提取、公式识别、表格结构感知），为后续RL优化打基础。选择Qwen2.5-VL-7B-Instruct，使用改进后的监督数据集 olmOCR-mix-1025（267962页，来自10万+PDF），相比旧版（olmOCR-mix-0225）的改进：

核心是用合成数据的单元测试作为奖励信号，通过GRPO算法优化模型，解决SFT阶段未覆盖的复杂场景（如多列、公式、表格）。

奖励函数设计

奖励总分为三部分，取值均为0~1，确保模型同时优化"内容正确性"和"输出格式合规性"：

奖励类型	计算方式	作用
主奖励：单元测试通过率	（通过的单元测试数量）/（总单元测试数量）	核心：优化内容正确性（公式、表格等）
辅助奖励1：EOS token	若输出以EOS（结束符）结尾则为1，否则为0	避免模型无限重复（解决"重复循环"）
辅助奖励2：元数据位置	若文档元数据（语言、旋转校正系数）在输出顶部则为1，否则按位置递减	确保输出结构规范，便于下游处理

为避免单一模型的随机性，文章采用模型权重平均（Souping） 策略：训练6个不同随机种子的RL模型（3个用token级重要性采样，3个用序列级重要性采样）；对6个模型的权重进行平均，得到最终的olmOCR-2-7B-1025模型；

参考文献:

olmOCR 2 Unit Test Rewards for Document OCR，https://arxiv.org/pdf/2510.19817v1

repo:https://github.com/allenai/olmocr