在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG

面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。

针对于此,华中科技大学和小红书 hi lab联合开源了 dots.mocr ,其能将文档中的文字、图表、表格等所有视觉元素,共同解析为统一的结构化数据,甚至能将图形直接转换为可编辑的 SVG 代码。它不仅极大地提升了文档理解的深度和广度,更在复杂文档的自动化处理方面达到了行业领先水平。

目前,HyperAI 官网(hyper.ai)的教程版块已上线「dots.mocr 多模态文档解析教程」,在线体验多模态文档解析新范式。

在线运行链接:

https://go.hyper.ai/tx8FW

demo运行

1.进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「dots.mocr 多模态文档解析教程」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月)」,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,**仅需 1,即可获得 20 小时 RTX 5090 算力(原价 7),**资源永久有效。

4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

效果演示

1.页面跳转后,点击左侧 README 页面,进入后点击上方 Run(运行)。

2.待运行完成,即可点击右侧 API 地址跳转至 demo 页面。

成果展示

教程链接:https://go.hyper.ai/tx8FW

相关推荐
碳基硅坊20 小时前
Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比
人工智能·qwen·qwen3.6
TeDi TIVE1 天前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
MY_TEUCK1 天前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
三毛的二哥1 天前
BEV:典型BEV算法总结
人工智能·算法·计算机视觉·3d
张忠琳1 天前
【vllm】vLLM v1 KV Offload — 模块超深度逐行分析之一(七)
ai·架构·vllm
j_xxx404_1 天前
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解
人工智能·ai·transformer
飞哥数智坊1 天前
全新 SOLO 在日常办公中的实际体验
人工智能·solo
南宫萧幕1 天前
自控PID+MATLAB仿真+混动P0/P1/P2/P3/P4构型
算法·机器学习·matlab·simulink·控制·pid
<-->1 天前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
朝新_1 天前
【Spring AI 】图像与语音模型实战
java·人工智能·spring