教程上新｜重新定义下一代 OCR：IBM 最新开源 Granite-docling-258M，实现端到端的「结构+内容」统一理解

一直以来，将格式各异的数字文档准确转换为机器可读的结构化数据是一个技术核心挑战。**文档布局的复杂多样性、以及其中包含的表格、图片等视觉元素，往往导致传统 OCR 系统的识别准确性难以满足实际需求。**现有技术通常依赖于复杂的集成系统，将任务拆解为多个独立子模块，虽在一定程度上有效，但存在优化困难、难以泛化处理各类文档的局限性。

近期，IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M，专为高效文档转换设计，能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素，实现端到端的全文文档转换。**该模型使用 DocTags 格式精准描述文档结构，能与 Docling 库无缝集成，精准捕捉页面中所有元素的内容、结构和空间位置，提供强大的定制化和错误处理能力，**适用企业级文档处理，是文档处理领域的强大工具。

此外该模型仅含 258M 参数，在图表识别、全页 OCR、代码识别等方面的性能评估中，均超过了前代的同级参数模型 SmolDocling-256M-Preview。**在保持模型参数紧凑的同时，还支持多语言（包括阿拉伯语、中文和日语）处理，**为 OCR 提供了最新轻量化、高性能的优化方案。

**「Granite-docling-258M：轻量多模态文档处理模型」**现已上线至 OpenBayes 公共教程板块，快来体验吧！

教程地址：https://go.openbayes.com/6Lpp9