云平台一键部署【rednote-hilab/dots.ocr】多语言文档布局解析模型

dots.ocr 是一个强大的多语言文档解析器,它在一个单一的视觉-语言模型中统一了布局检测和内容识别,同时保持良好的阅读顺序。尽管其基础是紧凑的1.7B参数的大规模语言模型,但它达到了最先进的(SOTA)性能。

dots.ocr的主要功能

强大的性能: dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的SOTA性能,同时在公式识别方面与更大的模型如Doubao-1.5和gemini2.5-pro相比也具有可比性。

多语言支持: dots.ocr 对低资源语言表现出强大的解析能力,在我们的内部多语言文档基准测试中,在布局检测和内容识别方面都取得了决定性的优势。

高效且快速的性能: 基于紧凑的1.7B大规模语言模型构建,dots.ocr 比许多基于更大基础的高性能模型提供了更快的推理速度。

dots.ocr的技术原理

统一且简单的架构: 通过利用单一的视觉-语言模型,dots.ocr 提供了一个比依赖复杂多模型流水线的传统方法更简洁的架构。任务之间的切换只需简单地改变输入提示即可实现,证明了一个VLM可以与传统的检测模型如DocLayout-YOLO相比达到竞争性的检测结果。

dots.ocr的应用场景

跨境多语言合同智能审阅

dots.ocr 可快速解析中、英、阿、法、西等多语种PDF合同扫描件,精准识别条款文本、表格条款及法律条文阅读顺序,为律所或企业法务系统提供结构化输入,显著提升合规审查效率。

低资源语言政务文档数字化

面向东南亚、非洲等地的本土语言(如斯瓦希里语、宿务语)手写/印刷公文,dots.ocr 能稳定完成版面分析与内容识别,助力政府机构低成本构建本地化OCR基础设施,推动数字政务普惠落地。

Github: https://github.com/rednote-hilab/dots.ocr/tree/master?tab=readme-ov-file

模型: https://huggingface.co/rednote-hilab/dots.ocr

【rednote-hilab/dots.ocr】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【rednote-hilab/dots.ocr】带来的精彩体验吧!

项目入口

https://open.virtaicloud.com/web/project/detail/667277356582531072

视频教程

http://bilibili.com/video/BV1UCzYBzE3x/?spm_id_from=333.1387.homepage.video_card.click

启动开发环境

进入【rednote-hilab/dots.ocr】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据主页项目介绍进行部署。

使用方法

在gemini/code中找到使用说明,选中使用方法单元格,点击运行。

等待生成local URL,右侧添加端口7860。

项目使用方法

示例展示

➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

相关推荐
Juicedata3 小时前
JuiceFS 企业版 5.3 特性详解:单文件系统支持超 5,000 亿文件,首次引入 RDMA
大数据·人工智能·机器学习·性能优化·开源
Piar1231sdafa3 小时前
蓝莓目标检测——改进YOLO11-C2TSSA-DYT-Mona模型实现
人工智能·目标检测·计算机视觉
愚公搬代码3 小时前
【愚公系列】《AI短视频创作一本通》002-AI引爆短视频创作革命(短视频创作者必备的能力)
人工智能
数据猿视觉3 小时前
新品上市|奢音S5耳夹耳机:3.5g无感佩戴,178.8元全场景适配
人工智能
蚁巡信息巡查系统3 小时前
网站信息发布再巡查机制怎么建立?
大数据·人工智能·数据挖掘·内容运营
AI浩3 小时前
C-RADIOv4(技术报告)
人工智能·目标检测
Purple Coder3 小时前
AI赋予超导材料预测论文初稿
人工智能
Data_Journal3 小时前
Scrapy vs. Crawlee —— 哪个更好?!
运维·人工智能·爬虫·媒体·社媒营销
云边云科技_云网融合3 小时前
AIoT智能物联网平台:架构解析与边缘应用新图景
大数据·网络·人工智能·安全
康康的AI博客4 小时前
什么是API中转服务商?如何低成本高稳定调用海量AI大模型?
人工智能·ai