【AI】OCR开源模型排行

以下榜单基于 2025-10 至 2025-12 的公开评测(OmniDocBench、OCRBench、GitHub 获星及社区人工打分),按"端到端识别准确率 / 复杂排版鲁棒性 / 开源协议"综合排序;左侧为"大模型"赛道(>5 B,服务器/边缘盒子),右侧为"小模型"赛道(≤3 B,手机/树莓派可跑)。


一、开源 OCR 大模型 Top5(>5 B)

排名 模型 规模 OmniDocBench↑ 协议 一句话亮点
1 PaddleOCR-VL 0.9 B→28 B 融合 92.6 Apache-2.0 0.9 B 核心即登顶全球权威 OmniDocBench,109 语种+手写+竖排全能
2 dots.vlm1 8 B 90.1 Apache-2.0 小红书开源多模态,复杂表格/公式/长图推理 SOTA,中文版面还原度领先
3 Chandra 9 B 89.4 Apache-2.0 结构化输出 Markdown/HTML,合同/问卷/医生手写混排场景最佳
4 ERNIE-4.5-VL-28B-A3B 28 B-MoE 88.7 Apache-2.0 百度最新视觉大模型,公式识别准确率 99%,LaTeX 一键导出
5 Florence-2-large 0.77 B→12 B 融合 87.9 MIT 微软 Azure 生态,工业级扩展,长文档阅读顺序还原准

二、开源 OCR 小模型 Top5(≤3 B,端侧实时)

排名 模型 规模 OCRBench↑ 手机端 RTF* 协议 一句话亮点
1 HunyuanOCR-1B 1 B 83.2 0.15 s Apache-2.0 腾讯混元开源,商业级轻量,HF 趋势榜 Top-4,vLLM 官方已接入
2 MiniCPM-o 2.6 8 B→2 B 蒸馏 82.5 0.12 s Apache-2.0 面壁端侧全能,180 万像素任意长宽比,OCRBench 25 B 以下最佳
3 H2OVL-Mississippi-0.8B 0.8 B 81.4 0.14 s Apache-2.0 0.8 B 击败 InternVL2-26B,37 M 图文对训练,树莓派 5 可跑
4 Dots.OCR-0.17B 0.17 B 79.1 0.10 s Apache-2.0 仅 170 M 参数,表格/布局一体输出,低显存极速部署
5 DeepSeek-OCR-0.5B 0.5 B 78.6 0.13 s MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可实时识别

*RTF = 骁龙 8 Gen3 端侧 720 p 图平均耗时(秒)


使用速览

  • 服务器/云端:直接上 PaddleOCR-VL 或 dots.vlm1,中文复杂版面+公式一步到位;
  • PC 独显:Chandra 或 Florence-2,支持 Markdown 一键导出,适合知识库流水线;
  • 手机/车机:HunyuanOCR-1B 或 MiniCPM-o 2.6,1 GB 级内存,首响 <150 ms,离线不断电。
相关推荐
小zh20 小时前
我用 AI 做了个 SVG 转 HTML 工具,页面还原 diff 能压到 5%
人工智能
fan654041420 小时前
企业选型AI搜索优化服务商的技术评估框架:四项核心指标
人工智能
小白|20 小时前
CANN目标检测实战:用ops-cv优化YOLOv8预处理Pipeline
人工智能·yolo·目标检测
Upsy-Daisy20 小时前
AI Agent 项目学习笔记(一):项目总体介绍与智能体链路概览
人工智能·笔记·学习
UCloud_TShare20 小时前
告警至处置的自动化鸿沟:AI Agent 的破局思路探索
运维·人工智能·自动化
humcomm20 小时前
如何利用AI进行智能监控
人工智能·架构
肖有米XTKF864621 小时前
肖有米开发团队:双迹美业水光系统小程序模式
数据库·人工智能·团队开发·csdn开发云
墨神谕21 小时前
人工智能(二)— 神经网络
人工智能·深度学习·神经网络
学废了wuwu21 小时前
【CS336导言】nanoGPT
人工智能
AI医影跨模态组学21 小时前
Int J Surg华中科技大学同济医学院附属协和医院:可解释机器学习模型预测胰腺癌早期复发:整合瘤内瘤周影像组学及身体成分分析
人工智能·机器学习·论文·医学·医学影像·影像组学