以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。
一、开源 OCR 大模型 Top5(>5 B)
| 排名 | 模型 | 规模 | OmniDocBench↑ | 协议 | 一句话亮点 |
|---|---|---|---|---|---|
| 1 | PaddleOCR-VL | 0.9 B→28 B 融合 | 92.6 | Apache-2.0 | 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能 |
| 2 | dots.vlm1 | 8 B | 90.1 | Apache-2.0 | 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先 |
| 3 | Chandra | 9 B | 89.4 | Apache-2.0 | 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳 |
| 4 | ERNIE-4.5-VL-28B-A3B | 28 B-MoE | 88.7 | Apache-2.0 | 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出 |
| 5 | Florence-2-large | 0.77 B→12 B 融合 | 87.9 | MIT | 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准 |
二、开源 OCR 小模型 Top5(≤3 B,端侧实时)
| 排名 | 模型 | 规模 | OCRBench↑ | 手机端 RTF* | 协议 | 一句话亮点 |
|---|---|---|---|---|---|---|
| 1 | HunyuanOCR-1B | 1 B | 83.2 | 0.15 s | Apache-2.0 | 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入 |
| 2 | MiniCPM-o 2.6 | 8 B→2 B 蒸馏 | 82.5 | 0.12 s | Apache-2.0 | 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳 |
| 3 | H2OVL-Mississippi-0.8B | 0.8 B | 81.4 | 0.14 s | Apache-2.0 | 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑 |
| 4 | Dots.OCR-0.17B | 0.17 B | 79.1 | 0.10 s | Apache-2.0 | 仅 170 M 参数,表格/布局一体输出,低显存极速部署 |
| 5 | DeepSeek-OCR-0.5B | 0.5 B | 78.6 | 0.13 s | MIT | 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别 |
*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)
使用速览
- 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
- PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
- 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。