OmniDocBench 93.12分！百度千帆发布端到端文档智能模型Qianfan-OCR

今天，百度千帆正式发布全新端到端文档智能模型Qianfan-OCR。

该模型基于统一的视觉语言架构打造，以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合，在多项权威评测中取得领先表现，标志着文档智能能力正从"流程拼接"迈向"模型统一"的新阶段。

在核心****Benchmark中，Qianfan-OCR表现尤为突出：在OmniDocBench v1.5上取得93.12分，端到端模型中位列第一；OCRBench远高于同尺寸通用VL模型和专用OCR模型；KIE(Key Information Extraction)在多个公开榜单的总和成绩超过Google Gemini 3-Pro等商用模型。

进一步来看，在图表理解等复杂任务中，端到端模型的优势更加明显。Qianfan-OCR在ChartQA、ChartBench等关键评测中表现领先，在6项任务中拿下5项最佳成绩，充分体现其在复杂结构理解与多模态推理上的能力优势。

这一结果的核心原因在于传统Pipeline在文本提取过程中往往会丢失空间结构与视觉上下文信息，从而限制了对图表与复杂文档的理解能力；而端到端模型能够完整保留视觉信息，使模型在结构理解与推理任务中具备更高的一致性与准确性。

整体来看，Qianfan-OCR在文档解析与理解一体化能力上的领先表现，进一步验证了端到端技术路线的可行性与先进性。目前，Qianfan-OCR已在千帆平台上线，并同步在HuggingFace开源模型权重，面向开发者与企业用户开放使用。

论文：

++https://arxiv.org/abs/2603.13398++

千帆平台：

++https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-52d29fea1063++

HuggingFace：

++https://huggingface.co/baidu/Qianfan-OCR++

GitHub：

++https://github.com/baidubce/Qianfan-VL++

Qianfan-OCR文档智能skills：

++https://github.com/baidubce/skills/tree/develop/skills/qianfanocr-document-intelligence++

一个模型

重构文档智能能力边界

长期以来，工业级OCR系统大多沿用"检测---识别---理解"的三段式Pipeline架构：先通过检测模型定位版面元素，再由识别模型提取文本内容，最终借助大模型完成语义理解。这一模式在工程实践中已经非常成熟，但其本质仍是多阶段串联的处理流程。

随着文档形态日益复杂，这种架构的局限性也逐渐显现。一方面，多阶段处理带来的误差会在链路中不断放大，影响最终结果的稳定性；另一方面，文本在被逐块提取的过程中，原有的空间结构与视觉上下文被打散，使得图表、表格等复杂内容的理解能力受到限制。同时，多模型协同运行也显著增加了系统部署与运维的复杂度。

在这一背景下，Qianfan-OCR从底层架构出发进行了重构。通过统一的端到端视觉语言模型，系统可以直接从文档图像生成结构化结果，跳过传统的多阶段拆分流程，实现从"看见文档"到"理解文档"的一步完成。这一转变不仅大幅简化了技术链路，也为文档智能能力的提升提供了一条更高效、更一致的实现路径。

核心突破：

让模型具备

"版面理解能力"

在端到端模型的演进过程中，一个核心挑战在于如何弥补传统Pipeline天然具备的版面分析能力。相比多阶段架构中显式的检测与结构解析过程，端到端模型往往缺乏对版面结构的直接建模能力。

针对这一问题，Qianfan-OCR提出了Layout-as-Thought 机制，将版面理解能力内化为模型推理过程的一部分。在生成最终结果之前，模型通过<think> token进入"思考阶段"，先对文档结构进行显式建模，生成包括元素位置、类型以及阅读顺序在内的结构化信息，随后再完成整体解析输出。

这一设计使模型在统一框架下同时具备结构感知与语义理解能力。一方面在端到端架构中补齐了版面分析这一关键能力；另一方面通过引入结构先验信息，有效提升了复杂文档场景下的解析准确性与稳定性。

因此在多栏排版、复杂表格以及非标准阅读顺序等典型复杂场景中，Qianfan-OCR能够表现出更强的鲁棒性与一致性。此外在部署效率上，单张A100 GPU，W8A8量化，吞吐量达1.024页/秒；相比pipeline系统需要CPU做检测+GPU做识别+GPU做LLM的异构编排，Qianfan-OCR只需一个vLLM实例。

从OCR到文档智能：

范式正在发生变化

Qianfan-OCR的发布，不仅是一次模型能力的升级，更体现了文档处理技术路径的演进：从多模型拼接的流程式架构走向统一建模的端到端范式。这一变化使文档智能从"工具能力"进一步演进为"系统能力"，也为企业级应用提供了更高效、更稳定的技术基础。

未来，百度千帆将持续推进多模态模型在产业场景中的落地应用，推动AI能力在更广泛行业中释放价值。