【VLM】Format Decoupled Reinforcement Learning for Document OCR

note

一、文档智能

【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,

看核心思路:

1)数据层面:构建包含566k样本的多源格式丰富语料,覆盖9类文档,补充格式密集型数据;

2)训练层面:基于Qwen3-VL-4B,采用SFT-then-RL两阶段范式,SFT奠定OCR基础,RL聚焦格式优化;

3)策略层面:通过熵基数据过滤筛选50%高熵样本,集中优化复杂格式【用SFT模型推理计算样本平均token熵,筛选熵值≥阈值的样本(最优过滤率50%),比无过滤高,过低或过高过滤均会降低性能】;

4)奖励层面:设计格式解耦奖励,为纯文本、公式、表格分别提供字符串匹配、表达式正确性、结构一致性奖励【纯文本,字符串匹配奖励,使用归一化编辑距离;公式,表达式正确性奖励,使用BLEU分数;表格,结构一致性奖励,使用TEDS分数,结论是完整奖励方案(FP+SM+EC+SC)比单一字符串匹配奖励高,其中结构一致性奖励(针对表格)和表达式正确性奖励(针对公式)对格式优化至关重要】,采用GRPO算法。

Reference

1\] Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

相关推荐
蛇皮划水怪6 小时前
深入浅出LangChain4J
java·langchain·llm
AI绘画哇哒哒8 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
算法备案代理10 小时前
大模型备案与算法备案,企业该如何选择?
人工智能·算法·大模型·算法备案
冻感糕人~12 小时前
【珍藏必备】ReAct框架实战指南:从零开始构建AI智能体,让大模型学会思考与行动
java·前端·人工智能·react.js·大模型·就业·大模型学习
HyperAI超神经15 小时前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
蛋王派17 小时前
DeepSeek-OCR-v2 模型解析和部署应用
人工智能·ocr
WooaiJava17 小时前
AI 智能助手项目面试技术要点总结(前端部分)
javascript·大模型·html5
爱喝白开水a18 小时前
前端AI自动化测试:brower-use调研让大模型帮你做网页交互与测试
前端·人工智能·大模型·prompt·交互·agent·rag
小白狮ww20 小时前
要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描
人工智能·深度学习·机器学习·ocr·cpu·gpu·deepseek
组合缺一1 天前
Solon AI (Java) v3.9 正式发布:全能 Skill 爆发,Agent 协作更专业!仍然支持 java8!
java·人工智能·ai·llm·agent·solon·mcp