OmniDocBench 93.12分!百度千帆发布端到端文档智能模型Qianfan-OCR

今天,百度千帆正式发布全新端到端文档智能模型Qianfan-OCR。

该模型基于统一的视觉语言架构打造,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现,标志着文档智能能力正从"流程拼接"迈向"模型统一"的新阶段。

在核心****Benchmark中,Qianfan-OCR表现尤为突出:在OmniDocBench v1.5上取得93.12分,端到端模型中位列第一;OCRBench远高于同尺寸通用VL模型和专用OCR模型;KIE(Key Information Extraction)在多个公开榜单的总和成绩超过Google Gemini 3-Pro等商用模型。

进一步来看,在图表理解等复杂任务中,端到端模型的优势更加明显。Qianfan-OCR在ChartQA、ChartBench等关键评测中表现领先,在6项任务中拿下5项最佳成绩,充分体现其在复杂结构理解与多模态推理上的能力优势。

这一结果的核心原因在于传统Pipeline在文本提取过程中往往会丢失空间结构与视觉上下文信息,从而限制了对图表与复杂文档的理解能力;而端到端模型能够完整保留视觉信息,使模型在结构理解与推理任务中具备更高的一致性与准确性。

整体来看,Qianfan-OCR在文档解析与理解一体化能力上的领先表现,进一步验证了端到端技术路线的可行性与先进性。目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源模型权重,面向开发者与企业用户开放使用。

  • 论文:

    ++https://arxiv.org/abs/2603.13398++

  • 千帆平台:

    ++https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-52d29fea1063++

  • HuggingFace:

    ++https://huggingface.co/baidu/Qianfan-OCR++

  • GitHub:

    ++https://github.com/baidubce/Qianfan-VL++

  • Qianfan-OCR文档智能skills:

    ++https://github.com/baidubce/skills/tree/develop/skills/qianfanocr-document-intelligence++

一个模型

重构文档智能能力边界

长期以来,工业级OCR系统大多沿用"检测---识别---理解"的三段式Pipeline架构:先通过检测模型定位版面元素,再由识别模型提取文本内容,最终借助大模型完成语义理解。这一模式在工程实践中已经非常成熟,但其本质仍是多阶段串联的处理流程。

随着文档形态日益复杂,这种架构的局限性也逐渐显现。一方面,多阶段处理带来的误差会在链路中不断放大,影响最终结果的稳定性;另一方面,文本在被逐块提取的过程中,原有的空间结构与视觉上下文被打散,使得图表、表格等复杂内容的理解能力受到限制。同时,多模型协同运行也显著增加了系统部署与运维的复杂度。

在这一背景下,Qianfan-OCR从底层架构出发进行了重构。通过统一的端到端视觉语言模型,系统可以直接从文档图像生成结构化结果,跳过传统的多阶段拆分流程,实现从"看见文档"到"理解文档"的一步完成。这一转变不仅大幅简化了技术链路,也为文档智能能力的提升提供了一条更高效、更一致的实现路径。

核心突破:

让模型具备

"版面理解能力"

在端到端模型的演进过程中,一个核心挑战在于如何弥补传统Pipeline天然具备的版面分析能力。相比多阶段架构中显式的检测与结构解析过程,端到端模型往往缺乏对版面结构的直接建模能力。

针对这一问题,Qianfan-OCR提出了Layout-as-Thought 机制,将版面理解能力内化为模型推理过程的一部分。在生成最终结果之前,模型通过<think> token进入"思考阶段",先对文档结构进行显式建模,生成包括元素位置、类型以及阅读顺序在内的结构化信息,随后再完成整体解析输出。

这一设计使模型在统一框架下同时具备结构感知与语义理解能力。一方面在端到端架构中补齐了版面分析这一关键能力;另一方面通过引入结构先验信息,有效提升了复杂文档场景下的解析准确性与稳定性。

因此在多栏排版、复杂表格以及非标准阅读顺序等典型复杂场景中,Qianfan-OCR能够表现出更强的鲁棒性与一致性。此外在部署效率上,单张A100 GPU,W8A8量化,吞吐量达1.024页/秒;相比pipeline系统需要CPU做检测+GPU做识别+GPU做LLM的异构编排,Qianfan-OCR只需一个vLLM实例。

从OCR到文档智能:

范式正在发生变化

Qianfan-OCR的发布,不仅是一次模型能力的升级,更体现了文档处理技术路径的演进:从多模型拼接的流程式架构走向统一建模的端到端范式。这一变化使文档智能从"工具能力"进一步演进为"系统能力",也为企业级应用提供了更高效、更稳定的技术基础。

未来,百度千帆将持续推进多模态模型在产业场景中的落地应用,推动AI能力在更广泛行业中释放价值。

相关推荐
王杨游戏养站系统1 天前
王杨游戏蜘蛛养站系统:提交百度站长工具平台教程!
游戏·百度·游戏下载站养站系统·游戏养站系统
全栈前端老曹2 天前
【前端地图】多地图平台适配方案——高德、百度、腾讯、Google Maps SDK 差异对比、封装统一地图接口
前端·javascript·百度·dubbo·wgs84·gcj-02·bd09
superstarsupers2 天前
宫庭海出席2026横琴-澳门国际数字艺术博览会 畅谈AI虚拟偶像产业新生态
人工智能·百度
S1998_1997111609•X3 天前
iOS栈被恶意篡改变成开发者模式漏洞裸露内核系统核心功能栈被泄露于政府黑客集团泄漏安全系统置门的犯罪行为原理
数据库·网络协议·百度·ssh·开闭原则
华科大胡子3 天前
百度搜索算法逆向思考
百度
新芒3 天前
大湾区人工智能应用研究院AI+游戏白皮书:重塑游戏价值理解框架
百度
易连EDI—EasyLink3 天前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
sinat_367104563 天前
claude code 接入 百度搜索 mcp
百度·mcp·claude code
泉飒3 天前
某特定场景下的ocr增强方式
ocr
S1998_1997111609•X3 天前
论next/js在打击省份及犯罪行为集团的系统分析[特殊字符]设计
网络·数据库·百度·ssh·开闭原则