【VLM】Format Decoupled Reinforcement Learning for Document OCR

note

一、文档智能

【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,

看核心思路:

1)数据层面:构建包含566k样本的多源格式丰富语料,覆盖9类文档,补充格式密集型数据;

2)训练层面:基于Qwen3-VL-4B,采用SFT-then-RL两阶段范式,SFT奠定OCR基础,RL聚焦格式优化;

3)策略层面:通过熵基数据过滤筛选50%高熵样本,集中优化复杂格式【用SFT模型推理计算样本平均token熵,筛选熵值≥阈值的样本(最优过滤率50%),比无过滤高,过低或过高过滤均会降低性能】;

4)奖励层面:设计格式解耦奖励,为纯文本、公式、表格分别提供字符串匹配、表达式正确性、结构一致性奖励【纯文本,字符串匹配奖励,使用归一化编辑距离;公式,表达式正确性奖励,使用BLEU分数;表格,结构一致性奖励,使用TEDS分数,结论是完整奖励方案(FP+SM+EC+SC)比单一字符串匹配奖励高,其中结构一致性奖励(针对表格)和表达式正确性奖励(针对公式)对格式优化至关重要】,采用GRPO算法。

Reference

1\] Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

相关推荐
用什么都重名8 小时前
「实战指南」使用 Python 调用大模型(LLM)
python·大模型·llm·api调用
mumu-hn8 小时前
浅说LLM-Agent(大模型-智能体)
人工智能·llm·agent
无双@9 小时前
保姆级 安装+使用上 Claude Code
ai·大模型·agent·claude·配置·claude code·skills
CoderJia程序员甲10 小时前
GitHub 热榜项目 - 日榜(2026-01-17)
ai·开源·大模型·github·ai教程
乙真仙人10 小时前
Claude Skills 的本质
人工智能·大模型·skills
人工干智能13 小时前
LangChain的提示模板template中的{tool_names}和{agent_scratchpad}
langchain·llm
tiger11913 小时前
AI Agent 如何从演示到生产
大数据·大模型·提示词·ai agent
一个处女座的程序猿14 小时前
Transformer 之LCW/TTT-E2E:《End-to-End Test-Time Training for Long Context》翻译与解读
llm·transformer·lcw·ttt-e2e
utmhikari15 小时前
【极客日常】快速上手复杂后端项目开发的经验
ai·llm·知识库·系统设计·后端开发·rag