多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方

继续跟进《文档智能》,最近多模态的文档解析模型一个接一个开源《文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)》。下面继续看看腾讯开源的HunyuanOCR。HunyuanOCR的OCR任务(文本检测与识别、文档解析、信息提取与视觉问答、文本图像翻译)。

模型架构

视觉编码器(SigLIP-v2-400M)+MLP+LLM(Hunyuan-0.5B)=0.9B

训练方法

HunyuanOCR的训练方案包含四阶段预训练针对性强化学习 两大环节,通过数据质量把控、任务自适应优化,训练1B参数模型。

1、预训练:四阶段递进式优化

预训练采用四阶段逐步解锁。

  1. 阶段1:视觉-语言对齐:仅训练视觉编码器(ViT)和MLP适配器,冻结语言模型。用50B tokens训练,学习率从3e-4衰减至3e-5,聚焦文本解析与识别基础能力。

  2. 阶段2:多模态预训练:解锁所有参数,进行端到端联合学习。用300B tokens训练,学习率从2e-4衰减至5e-5,强化文档、表格等结构化内容的理解与推理。

  3. 阶段3:长上下文预训练:扩展上下文窗口至32K tokens,支持长文档处理。用80B tokens训练,学习率从8e-5衰减至5e-6,纳入长文本和真实场景自动标注数据。

  4. 阶段4:SFT:用标注数据+高质量合成数据退火训练,保持32K上下文。用24B tokens训练,学习率从2e-5衰减至1e-6,统一任务指令和输出格式,为RL铺垫。

2、强化学习:任务自适应优化

围绕"数据-奖励-算法"。

2.1 数据构建
  • 筛选高质量开源+合成数据,剔除易作弊样本(如多选题)。
  • 覆盖 spotting、解析、IE、翻译等全场景,平衡任务难度,避免 trivial 或无解样本。
2.2 奖励设计:任务自适应
  • spotting:结合IoU(定位)和编辑距离(识别)计算奖励,平衡定位与识别精度。
  • 文档解析:基于输出与真值的归一化编辑距离评分。
  • VQA:二元奖励(1/0),仅关注内容完整性和事实正确性。
  • 翻译:LLM打分(0-5分)后归一化,中间区间(2-4分)扩大粒度,捕捉细微质量差异。
2.3 训练策略:GRPO算法+格式约束

GRPO算法强化格式约束:超长度或不符合结构化要求的输出直接判0分,确保模型输出有效性。

实验性能

参考文献:HunyuanOCR Technical Report,https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

相关推荐
熬夜敲代码的小N14 小时前
从SEO到GEO:AI时代内容优化的范式革命
大数据·人工智能·计算机网络
FakeOccupational14 小时前
【经济学】 基本面数据(Fundamental Data)之 美国劳动力报告&非农就业NFP + ADP + 美国劳动力参与率LFPR
开发语言·人工智能·python
smileNicky14 小时前
2025 技术创作与实战:深耕数据库、中间件与 AI 应用的进阶之路
数据库·人工智能·中间件
凌乱风雨121114 小时前
使用Vite+ Lit 构建webcomponent 组件
人工智能·语言模型
weisian15114 小时前
入门篇--知名企业-3-Google DeepMind:从AlphaGo到AGI,AI如何改写人类未来?
人工智能
郝学胜-神的一滴14 小时前
机器学习数据集完全指南:从公开资源到Sklearn实战
人工智能·python·程序人生·机器学习·scikit-learn·sklearn
偶信科技14 小时前
聚焦“一点”洞察海洋:偶信科技单点海流计引领精准观测新趋势
人工智能·科技·偶信科技·ocean·海洋仪器·单点海流计
汤姆yu14 小时前
基于yolov8的深度学习垃圾分类检测系统
人工智能·深度学习
菠菠萝宝14 小时前
从传统后端到AI智能驱动:Java + AI 生态深度实战技术总结
java·人工智能·ai·llm·知识图谱·ai编程·rag
独孤--蝴蝶14 小时前
AI人工智能-大模型的演进-第十一周(上)(小白)
人工智能·深度学习·自然语言处理