【AI】OCR开源模型排行

以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。


一、开源 OCR 大模型 Top5(>5 B)

排名 模型 规模 OmniDocBench↑ 协议 一句话亮点
1 PaddleOCR-VL 0.9 B→28 B 融合 92.6 Apache-2.0 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能
2 dots.vlm1 8 B 90.1 Apache-2.0 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先
3 Chandra 9 B 89.4 Apache-2.0 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳
4 ERNIE-4.5-VL-28B-A3B 28 B-MoE 88.7 Apache-2.0 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出
5 Florence-2-large 0.77 B→12 B 融合 87.9 MIT 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准

二、开源 OCR 小模型 Top5(≤3 B,端侧实时)

排名 模型 规模 OCRBench↑ 手机端 RTF* 协议 一句话亮点
1 HunyuanOCR-1B 1 B 83.2 0.15 s Apache-2.0 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入
2 MiniCPM-o 2.6 8 B→2 B 蒸馏 82.5 0.12 s Apache-2.0 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳
3 H2OVL-Mississippi-0.8B 0.8 B 81.4 0.14 s Apache-2.0 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑
4 Dots.OCR-0.17B 0.17 B 79.1 0.10 s Apache-2.0 仅 170 M 参数,表格/布局一体输出,低显存极速部署
5 DeepSeek-OCR-0.5B 0.5 B 78.6 0.13 s MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)


使用速览

  • 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
  • PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
  • 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。
相关推荐
Elastic 中国社区官方博客7 小时前
如何使用 Mastra 和 Elasticsearch 构建具备代理能力的 AI 应用
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
NINGMENGb7 小时前
Infoseek舆情系统观察:自动化分析的天花板与公关人的不可替代性
运维·人工智能·自动化
PD我是你的真爱粉7 小时前
RAG 完全指南:从基础概念、核心流程到 Advanced RAG 与 Modular RAG
人工智能·深度学习·机器学习
龙文浩_7 小时前
AI中NLP的RNN 结构深度解析与代码实现
人工智能·深度学习·神经网络·学习·自然语言处理
志栋智能7 小时前
从脚本到智能体:低成本IT运维自动化演进路径
大数据·运维·服务器·人工智能·自动化
召田最帅boy7 小时前
通意千应 - 你的专属AI助手
人工智能
Rabbit_QL7 小时前
【激活函数】Sigmoid 与 Softmax 的关系:从二分类到多分类的统一视角
人工智能·深度学习·分类
LDG_AGI7 小时前
【搜索引擎】Elasticsearch(一):索引创建、数据插入、请求示例
人工智能·深度学习·算法·elasticsearch·机器学习·搜索引擎·推荐算法
童话名剑7 小时前
YOLOv9 (学习笔记)
人工智能·深度学习
爱分享的阿Q7 小时前
从AI IDE到Agent统一工作区:开发环境的范式跃迁
ide·人工智能