百度PaddleOCR-VL：基于0.9B超紧凑视觉语言模型，支持109种语言，性能超越GPT-4o等大模型

原文:https://mp.weixin.qq.com/s/zba1UAyqoKaTvOUIr6P_vg

全文摘要

PaddleOCR-VL 是一款主打资源高效的文档解析工具，核心部分是 PaddleOCR-VL-0.9B------ 它是个小巧但能力强的视觉语言组件，结合了 NaViT 风格的动态分辨率视觉处理模块和 ERNIE-4.5-0.3B 语言模型，能精准识别文档里的各类元素。这款模型有不少实用优势：支持 109 种语言，不管是文本、表格、公式还是图表，哪怕结构复杂都能准确识别，同时还能节省资源消耗。经过公共测试标准和内部测试的全面验证，它在整页文档解析和单个元素识别上都达到了当前的高水平，不仅比现有方案表现更好，和顶尖视觉语言工具比也不落下风，而且处理速度很快。这些特点让它特别适合在实际场景中落地使用。

Github：https://github.com/PaddlePaddle/PaddleOCR
论文：https://arxiv.org/pdf/2510.14528
体验地址：
- https://aistudio.baidu.com/application/detail/98365
- https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

一、引言：文档解析的革命性突破

在信息爆炸的时代，文档作为知识的核心载体，其复杂性和多样性对自动化解析技术提出了前所未有的挑战。传统方法在处理多语言、多模态文档时，往往面临推理速度慢、资源消耗高、布局分析不稳定等问题。

百度飞桨团队 推出的PaddleOCR-VL ，以0.9B参数量 的超紧凑视觉语言模型（VLM）为核心，首次在多语言文档解析领域实现性能与效率的双重突破 。其核心组件PaddleOCR-VL-0.9B通过创新性架构设计，在OmniDocBench等权威基准测试中超越GPT-4o、InternVL3等千亿参数大模型，同时推理速度提升15.8%，内存占用降低40%，成为多语言文档解析的里程碑式成果。

二、技术亮点：轻量化架构下的极致性能

1. 双阶段架构：布局分析与元素识别的精准分工

PaddleOCR-VL采用两阶段架构，将复杂文档解析任务拆解为布局分析与元素识别两大模块（见图2），避免了端到端模型的长序列推理瓶颈。

布局分析模块（PP-DocLayoutV2）：基于RT-DETR检测器与轻量级指针网络，精准定位文本块、表格、公式等元素，并预测阅读顺序。
元素识别模块（PaddleOCR-VL-0.9B）：通过动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型的深度融合，实现文本、表格、公式、图表的高精度识别。

图2 | PaddleOCR-VL双阶段架构示意图

该架构通过解耦布局分析与元素识别，显著降低计算复杂度，同时避免长序列自回归生成的错误累积问题。

2. 超紧凑视觉语言模型：NaViT+ERNIE-4.5的强强联合

PaddleOCR-VL-0.9B的核心创新在于视觉编码器与语言模型的高效协同：

视觉编码器：采用NaViT风格的动态分辨率预处理器，支持原生分辨率输入，避免缩放失真，提升文本密集场景的识别精度。
语言模型：基于ERNIE-4.5-0.3B，引入3D-RoPE位置编码，增强长序列建模能力，同时保持低推理延迟。
参数冻结与后对齐策略：通过固定视觉编码器与语言模型参数，仅训练2层MLP投影层，大幅降低训练成本（见图4）。

图4 | PaddleOCR-VL-0.9B模型架构

该设计在保证性能的同时，将模型参数量压缩至0.9B，仅为GPT-4o的0.37%，推理效率提升显著。

三、数据构建：自动化与合成技术的协同突破

为训练强大的多模态模型，团队提出了系统化的高质量数据构建方法（见图5），覆盖文本、表格、公式、图表四大核心元素。

图5 | PaddleOCR-VL训练数据构建流程

1. 多源数据采集与清洗

公开数据：整合CASIA-HWDB、UniMER-1M等权威数据集，覆盖学术论文、手写文本、金融报表等场景。
合成数据：针对长尾分布（如公式、图表），利用LaTeX渲染、CSS样式库等工具生成百万级高质量样本。
网络数据：爬取公开PDF文档，覆盖多语言、多领域的真实场景。

2. 自动化标注与硬例挖掘

双阶段标注：先通过PP-StructureV3生成伪标签，再由ERNIE-4.5-VL进行精细化修正，消除模型幻觉。
硬例挖掘：构建评估引擎，针对低性能类别（如手写公式）进行数据增强，通过XeLaTeX等工具合成挑战性样本。

四、性能评估：全面超越现有方案

1. 页面级文档解析：OmniDocBench基准测试

在OmniDocBench v1.5基准测试中，PaddleOCR-VL以92.56的综合评分登顶，超越MinerU2.5（90.67）与GPT-4o（75.02），在文本编辑距离（0.035）、公式CDM（91.43）等指标上表现尤为突出（见图1）。

图1 | PaddleOCR-VL在OmniDocBench v1.5上的性能表现

2. 元素级识别：多任务全面领先

文本识别 ：在In-house-OCR数据集上，PaddleOCR-VL的平均编辑距离为0.013 （拉丁文），手写中文误差率仅0.089，显著优于Qwen2.5-VL与Dolphin。
表格识别 ：在In-house-Table数据集上，TEDS得分为0.8699 ，结构化编辑距离0.9339，实现复杂表格的精准解析。
公式识别 ：在In-house-Formula数据集上，CDM得分为0.9882，支持中英文混合公式、手写公式等复杂场景。

3. 推理效率：低资源下的高速处理

通过多线程异步执行与批处理优化，PaddleOCR-VL在NVIDIA A100上的推理速度达到1.22 pages/s ，GPU显存占用仅43.7GB，相比MinerU2.5提升15.8%（见表13）。

五、应用场景：从历史文档到实时信息检索

PaddleOCR-VL的高效多语言解析能力，为以下场景提供强大支持：

历史文档数字化：精准识别古籍中的竖排文本、手写批注。
金融报表自动化：提取复杂表格与公式，生成结构化数据。
跨语言知识检索：支持109种语言的无缝切换，助力全球化信息整合。

六、未来展望：多模态文档处理的新范式

PaddleOCR-VL的推出，标志着文档解析从"专用模型堆砌"向"轻量化统一模型"的范式转变。其核心创新------动态分辨率视觉编码器+轻量语言模型的架构，为资源受限场景下的多模态任务提供了新思路。随着RAG（检索增强生成）技术的普及，PaddleOCR-VL有望成为大模型时代文档理解的基础设施，推动从学术研究到工业落地的全链条革新。