【AI】OCR开源模型排行

以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。


一、开源 OCR 大模型 Top5(>5 B)

排名 模型 规模 OmniDocBench↑ 协议 一句话亮点
1 PaddleOCR-VL 0.9 B→28 B 融合 92.6 Apache-2.0 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能
2 dots.vlm1 8 B 90.1 Apache-2.0 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先
3 Chandra 9 B 89.4 Apache-2.0 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳
4 ERNIE-4.5-VL-28B-A3B 28 B-MoE 88.7 Apache-2.0 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出
5 Florence-2-large 0.77 B→12 B 融合 87.9 MIT 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准

二、开源 OCR 小模型 Top5(≤3 B,端侧实时)

排名 模型 规模 OCRBench↑ 手机端 RTF* 协议 一句话亮点
1 HunyuanOCR-1B 1 B 83.2 0.15 s Apache-2.0 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入
2 MiniCPM-o 2.6 8 B→2 B 蒸馏 82.5 0.12 s Apache-2.0 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳
3 H2OVL-Mississippi-0.8B 0.8 B 81.4 0.14 s Apache-2.0 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑
4 Dots.OCR-0.17B 0.17 B 79.1 0.10 s Apache-2.0 仅 170 M 参数,表格/布局一体输出,低显存极速部署
5 DeepSeek-OCR-0.5B 0.5 B 78.6 0.13 s MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)


使用速览

  • 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
  • PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
  • 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。
相关推荐
大龄程序员狗哥6 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer6 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能6 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0956 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
Hommy886 小时前
【开源剪映小助手】API 接口文档
开源·github·aigc·视频剪辑自动化·剪映api
墨染天姬6 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好6 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
一粒黑子7 小时前
【实战解析】阿里开源 PageAgent:纯前端 GUI Agent,一行JS让网页支持自然语言操控
前端·javascript·开源
紫微AI7 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈7 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程