【VLM】Format Decoupled Reinforcement Learning for Document OCR

note

一、文档智能

【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,

看核心思路:

1)数据层面:构建包含566k样本的多源格式丰富语料,覆盖9类文档,补充格式密集型数据;

2)训练层面:基于Qwen3-VL-4B,采用SFT-then-RL两阶段范式,SFT奠定OCR基础,RL聚焦格式优化;

3)策略层面:通过熵基数据过滤筛选50%高熵样本,集中优化复杂格式【用SFT模型推理计算样本平均token熵,筛选熵值≥阈值的样本(最优过滤率50%),比无过滤高,过低或过高过滤均会降低性能】;

4)奖励层面:设计格式解耦奖励,为纯文本、公式、表格分别提供字符串匹配、表达式正确性、结构一致性奖励【纯文本,字符串匹配奖励,使用归一化编辑距离;公式,表达式正确性奖励,使用BLEU分数;表格,结构一致性奖励,使用TEDS分数,结论是完整奖励方案(FP+SM+EC+SC)比单一字符串匹配奖励高,其中结构一致性奖励(针对表格)和表达式正确性奖励(针对公式)对格式优化至关重要】,采用GRPO算法。

Reference

1\] Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

相关推荐
Flying pigs~~19 小时前
LoRA 面试完全指南:低秩分解原理 + Transformer 应用
人工智能·深度学习·lora·大模型·微调·transformer
Flynt1 天前
微软OpenAI终止独家合作:多云部署背后的技术架构变化
llm
量子位1 天前
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻
llm
带娃的IT创业者1 天前
深度解析:从零构建高性能 LLM API 中转网关与成本优化实战
开发语言·gpt·llm·php·高性能·成本优化·api网关
DigitalOcean1 天前
DigitalOcean 打造 AI 原生云,帮助 AI 应用大幅降低成本与运维复杂度
llm·agent
Flying pigs~~1 天前
大模型Prompt-Tuning技术进阶 - 完整总结
人工智能·大模型·prompt
熊猫钓鱼>_>1 天前
大型复杂远程AI Agent应用:从架构困局到进化突围
人工智能·ai·架构·开源·大模型·llm·agent
bryant_meng1 天前
【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(11)
人工智能·深度学习·llm·speculative·预言家
xixixi777771 天前
AI安全周记:AI驱动攻击占比50%、PQC国标落地、ShinyHunters连环袭击——面对1:25的攻防成本鸿沟,防守方还能撑多久?
人工智能·安全·ai·大模型·aigc·量子计算·供应链
从零开始学习人工智能1 天前
量化评估RAG效果:LLM答案自动评估脚本全解析
人工智能·多模态·rag