【AI】OCR开源模型排行

墨染天姬2026-01-09 9:06

以下榜单基于 2025-10 至 2025-12 的公开评测（OmniDocBench、OCRBench、GitHub 获星及社区人工打分），按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序；左侧为"大模型"赛道（>5 B，服务器/边缘盒子），右侧为"小模型"赛道（≤3 B，手机/树莓派可跑）。

一、开源 OCR 大模型 Top5（>5 B）

排名	模型	规模	OmniDocBench↑	协议	一句话亮点
1	PaddleOCR-VL	0.9 B→28 B 融合	92.6	Apache-2.0	0.9 B 核心即登顶全球权威 OmniDocBench，109 语种+手写+竖排全能
2	dots.vlm1	8 B	90.1	Apache-2.0	小红书开源多模态，复杂表格/公式/长图推理 SOTA，中文版面还原度领先
3	Chandra	9 B	89.4	Apache-2.0	结构化输出 Markdown/HTML，合同/问卷/医生手写混排场景最佳
4	ERNIE-4.5-VL-28B-A3B	28 B-MoE	88.7	Apache-2.0	百度最新视觉大模型，公式识别准确率 99%，LaTeX 一键导出
5	Florence-2-large	0.77 B→12 B 融合	87.9	MIT	微软 Azure 生态，工业级扩展，长文档阅读顺序还原准

二、开源 OCR 小模型 Top5（≤3 B，端侧实时）

排名	模型	规模	OCRBench↑	手机端 RTF*	协议	一句话亮点
1	HunyuanOCR-1B	1 B	83.2	0.15 s	Apache-2.0	腾讯混元开源，商业级轻量，HF 趋势榜 Top-4，vLLM 官方已接入
2	MiniCPM-o 2.6	8 B→2 B 蒸馏	82.5	0.12 s	Apache-2.0	面壁端侧全能，180 万像素任意长宽比，OCRBench 25 B 以下最佳
3	H2OVL-Mississippi-0.8B	0.8 B	81.4	0.14 s	Apache-2.0	0.8 B 击败 InternVL2-26B，37 M 图文对训练，树莓派 5 可跑
4	Dots.OCR-0.17B	0.17 B	79.1	0.10 s	Apache-2.0	仅 170 M 参数，表格/布局一体输出，低显存极速部署
5	DeepSeek-OCR-0.5B	0.5 B	78.6	0.13 s	MIT	数学/术语场景专用，边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时（秒）

使用速览

服务器/云端：直接上 PaddleOCR-VL 或 dots.vlm1，中文复杂版面+公式一步到位；
PC 独显：Chandra 或 Florence-2，支持 Markdown 一键导出，适合知识库流水线；
手机/车机：HunyuanOCR-1B 或 MiniCPM-o 2.6，1 GB 级内存，首响 <150 ms，离线不断电。

上一篇：Python机器学习：从入门到资深

下一篇：Docker常用中间件部署笔记：MongoDB、Redis、MySQL、Tomcat快速搭建

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……