【AI】OCR开源模型排行

以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。


一、开源 OCR 大模型 Top5(>5 B)

排名 模型 规模 OmniDocBench↑ 协议 一句话亮点
1 PaddleOCR-VL 0.9 B→28 B 融合 92.6 Apache-2.0 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能
2 dots.vlm1 8 B 90.1 Apache-2.0 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先
3 Chandra 9 B 89.4 Apache-2.0 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳
4 ERNIE-4.5-VL-28B-A3B 28 B-MoE 88.7 Apache-2.0 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出
5 Florence-2-large 0.77 B→12 B 融合 87.9 MIT 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准

二、开源 OCR 小模型 Top5(≤3 B,端侧实时)

排名 模型 规模 OCRBench↑ 手机端 RTF* 协议 一句话亮点
1 HunyuanOCR-1B 1 B 83.2 0.15 s Apache-2.0 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入
2 MiniCPM-o 2.6 8 B→2 B 蒸馏 82.5 0.12 s Apache-2.0 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳
3 H2OVL-Mississippi-0.8B 0.8 B 81.4 0.14 s Apache-2.0 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑
4 Dots.OCR-0.17B 0.17 B 79.1 0.10 s Apache-2.0 仅 170 M 参数,表格/布局一体输出,低显存极速部署
5 DeepSeek-OCR-0.5B 0.5 B 78.6 0.13 s MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)


使用速览

  • 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
  • PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
  • 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。
相关推荐
甲维斯16 小时前
最佳work模型sonnet5来了,直接就能用!
人工智能
狂师16 小时前
比 Playwright 更给力,推荐一个AI Agent的浏览器自动化开源项目!
前端·开源·测试
IT_陈寒16 小时前
React hooks 闭包陷阱把我的状态吃掉了,原来问题出在这里
前端·人工智能·后端
AI袋鼠帝17 小时前
开源「仓颉.Skill」2.0,你现在可以蒸馏任何视频!
开源·aigc
冬奇Lab1 天前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab1 天前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩1 天前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒1 天前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端