【VLM】Format Decoupled Reinforcement Learning for Document OCR

note

一、文档智能

【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,

看核心思路:

1)数据层面:构建包含566k样本的多源格式丰富语料,覆盖9类文档,补充格式密集型数据;

2)训练层面:基于Qwen3-VL-4B,采用SFT-then-RL两阶段范式,SFT奠定OCR基础,RL聚焦格式优化;

3)策略层面:通过熵基数据过滤筛选50%高熵样本,集中优化复杂格式【用SFT模型推理计算样本平均token熵,筛选熵值≥阈值的样本(最优过滤率50%),比无过滤高,过低或过高过滤均会降低性能】;

4)奖励层面:设计格式解耦奖励,为纯文本、公式、表格分别提供字符串匹配、表达式正确性、结构一致性奖励【纯文本,字符串匹配奖励,使用归一化编辑距离;公式,表达式正确性奖励,使用BLEU分数;表格,结构一致性奖励,使用TEDS分数,结论是完整奖励方案(FP+SM+EC+SC)比单一字符串匹配奖励高,其中结构一致性奖励(针对表格)和表达式正确性奖励(针对公式)对格式优化至关重要】,采用GRPO算法。

Reference

1\] Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

相关推荐
海的辽阔9 小时前
如何在MAC下安装EcomGpt模型
macos·大模型·ecomgpt
赢乐13 小时前
AI大模型学习笔记:LangChain核心组件-工具(Tools)
langchain·大模型·agent·function_call·工具(tools)·tool装饰器·定义工具
xrz5785pixel13 小时前
▎ 让本地模型在 Codex 里调用工具:我把两个不兼容的 API 翻译了
llm
花千树-01015 小时前
SubAgent 基础:拥有自主工具的子代理
java·langchain·llm·agent·langgraph·subagent·harness
qcx2315 小时前
【AI Daily】每日AI日报
人工智能·llm·agent·daily
weixin_3077791315 小时前
OCR图片文本提取代码
图像处理·python·opencv·自动化·ocr
AI人工智能+15 小时前
基于OCR与深度学习的发票识别技术,重构报销系统效率
计算机视觉·自然语言处理·ocr·发票识别
阿里云大数据AI技术16 小时前
从图片到声音、视频:MaxCompute MaxFrame 多模态算子模块,让海量多模态数据_跑_起来
大数据·人工智能·阿里云·多模态·maxcompute
qcx2316 小时前
【AI Daily】每日Arxiv论文研读Top5 | 2026-05-19(周2)
人工智能·llm·agi·arxiv
小成Coder16 小时前
【Jack实战】如何用 Core Vision Kit 给旅行票据做端侧 OCR 识别
华为·ocr·harmonyos·鸿蒙