教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解

一直以来,将格式各异的数字文档准确转换为机器可读的结构化数据是一个技术核心挑战。**文档布局的复杂多样性、以及其中包含的表格、图片等视觉元素,往往导致传统 OCR 系统的识别准确性难以满足实际需求。**现有技术通常依赖于复杂的集成系统,将任务拆解为多个独立子模块,虽在一定程度上有效,但存在优化困难、难以泛化处理各类文档的局限性。

近期,IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M,专为高效文档转换设计,能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素,实现端到端的全文文档转换。**该模型使用 DocTags 格式精准描述文档结构,能与 Docling 库无缝集成,精准捕捉页面中所有元素的内容、结构和空间位置,提供强大的定制化和错误处理能力,**适用企业级文档处理,是文档处理领域的强大工具。

此外该模型仅含 258M 参数,在图表识别、全页 OCR、代码识别等方面的性能评估中,均超过了前代的同级参数模型 SmolDocling-256M-Preview。**在保持模型参数紧凑的同时,还支持多语言(包括阿拉伯语、中文和日语)处理,**为 OCR 提供了最新轻量化、高性能的优化方案。

**「Granite-docling-258M:轻量多模态文档处理模型」**现已上线至 OpenBayes 公共教程板块,快来体验吧!

教程地址:https://go.openbayes.com/6Lpp9

Demo 运行

01 Demo 运行阶段

  1. 登录 OpenBayes.com,在「公共教程」页面,选择「Granite-docling-258M:轻量多模态文档处理模型」教程。
  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
  1. 选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6D r

  1. 等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示

进入 Demo 运行页面后,选择「Upload Image」上传图片,在「Ask new question」提问框中输入问题即可运行。

相关推荐
草莓熊Lotso1 小时前
Git 分支管理:从基础操作到协作流程(本地篇)
大数据·服务器·开发语言·c++·人工智能·git·sql
youngfengying1 小时前
Swin Transformer
人工智能·深度学习·transformer
User_芊芊君子1 小时前
光影协同:基于Rokid CXR-M SDK构建工业级远程专家协作维修系统
人工智能
摘星编程1 小时前
AI文物复活馆:基于 AiOnly 一键调用 Claude 4.5 + Gemini 3 Pro 的多模态复原神器
人工智能·aionly
AI绘画哇哒哒2 小时前
【收藏必看】大模型智能体六大设计模式详解:从ReAct到Agentic RAG,构建可靠AI系统
人工智能·学习·ai·语言模型·程序员·产品经理·转行
CNRio3 小时前
人工智能基础架构与算力之3 Transformer 架构深度解析:从注意力机制到算力适配演进
人工智能·深度学习·transformer
qy-ll3 小时前
深度学习——CNN入门
人工智能·深度学习·cnn
青瓷程序设计6 小时前
动物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
F_D_Z7 小时前
数据集相关类代码回顾理解 | sns.distplot\%matplotlib inline\sns.scatterplot
python·深度学习·matplotlib
金智维科技官方7 小时前
RPA财务机器人为企业高质量发展注入动能
人工智能·机器人·rpa·财务