【AI】OCR开源模型排行

以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。


一、开源 OCR 大模型 Top5(>5 B)

排名 模型 规模 OmniDocBench↑ 协议 一句话亮点
1 PaddleOCR-VL 0.9 B→28 B 融合 92.6 Apache-2.0 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能
2 dots.vlm1 8 B 90.1 Apache-2.0 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先
3 Chandra 9 B 89.4 Apache-2.0 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳
4 ERNIE-4.5-VL-28B-A3B 28 B-MoE 88.7 Apache-2.0 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出
5 Florence-2-large 0.77 B→12 B 融合 87.9 MIT 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准

二、开源 OCR 小模型 Top5(≤3 B,端侧实时)

排名 模型 规模 OCRBench↑ 手机端 RTF* 协议 一句话亮点
1 HunyuanOCR-1B 1 B 83.2 0.15 s Apache-2.0 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入
2 MiniCPM-o 2.6 8 B→2 B 蒸馏 82.5 0.12 s Apache-2.0 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳
3 H2OVL-Mississippi-0.8B 0.8 B 81.4 0.14 s Apache-2.0 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑
4 Dots.OCR-0.17B 0.17 B 79.1 0.10 s Apache-2.0 仅 170 M 参数,表格/布局一体输出,低显存极速部署
5 DeepSeek-OCR-0.5B 0.5 B 78.6 0.13 s MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)


使用速览

  • 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
  • PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
  • 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。
相关推荐
天天讯通1 天前
智能语音机器人未来的发展方向
人工智能·机器人·语音识别
前端AI充电站1 天前
Google 开始卷价格了:Gemini 3.1 Flash-Lite,会不会把 AI 应用成本真的打下来?
前端·人工智能
guts3501 天前
使用python里的OpenCV包做简单的车道线检测
人工智能·python·opencv
金智维科技官方1 天前
APA智能流程自动化是什么?
大数据·人工智能·ai·智能体·apa
智慧化智能化数字化方案1 天前
可信数据空间——详解2025 华为AI可信数据空间白皮书【附全文阅读】
人工智能·可信数据空间·华为ai可信数据空间白皮书
两只羊1 天前
折腾 OpenClaw:从零开始在 Ubuntu 上部署并搞定局域网访问
人工智能
大傻^1 天前
SpringAI2.0 Null Safety 实战:JSpecify 注解体系与 Kotlin 互操作
android·开发语言·人工智能·kotlin·springai
蓝队云计算1 天前
蓝队云揭秘:如何利用云服务器高效养殖龙虾OpenClaw?
运维·服务器·人工智能·云服务器·openclaw
JicasdC123asd1 天前
密集连接瓶颈模块改进YOLOv26特征复用与梯度流动双重优化
人工智能·yolo·目标跟踪
sz-lcw1 天前
HOG特征向量计算方法
人工智能·python·算法