OCR · 文档解析 · 大模型数据预处理

一个把图片和PDF变成结构化数据的OCR引擎

100+ 语言 · 端到端识别 · 表格/公式/印章 · Apache 协议

如果你经常需要从图片、扫描件、PDF里提取文字，或者想把一沓合同/发票/报告批量转成 Excel 或 Markdown------这个工具就是为你准备的。

它是一个全功能的 OCR 与文档解析引擎，开源、免费、MIT 协议。图片扔进去，文本、表格、公式、版面结构全给你解析出来。

它能做什么

不是一个简单的"图片转文字"工具，而是一个完整的文档理解引擎。核心能力分三大块：

智能文档解析------面向大模型

把杂乱的 PDF 和扫描件自动转换成结构化的 Markdown 或 JSON。内置文档视觉语言模型，能识别文本、表格、公式、图表、印章，准确率超过 96%。特别适合 RAG 应用和大模型训练数据的预处理------Dify、RAGFlow 等项目已经在用。

通用文字识别

支持 100+ 种语言的文本检测和识别。卡证、街景、书籍、屏幕截图、工业零部件------什么场景的图片都能处理。多语言混合排版（中英日韩拼音混排）也能准确识别。

版面结构分析

自动检测页面中的标题、段落、表格、图片区域，输出带有精确定位坐标的结构化结果。复杂排版的 PDF（双栏、混排、表格嵌套）也能准确还原阅读顺序。

核心能力一览

|---------|------------------------------------------|
| 能力 | 说明 |
| 文本检测与识别 | 定位图像中的文字区域并识别内容，支持倾斜、弯曲、模糊等多种复杂情况 |
| 多语言支持 | 覆盖 100+ 种语言，包括中英日韩法德俄阿拉伯文以及藏文、孟加拉语等 |
| 表格识别 | 自动检测并解析表格结构，输出 HTML / Excel 格式，支持跨页表格合并 |
| 公式识别 | 识别数学公式并输出 LaTeX 格式，论文、教材、试卷数字化必备 |
| 印章识别 | 检测并提取合同、文件中的印章信息，包括圆形章、椭圆章等 |
| 版面分析 | 识别标题、正文、页眉页脚、图片区域，还原文档阅读顺序 |
| 古籍/生僻字 | 针对古籍、手写体、生僻字有专门优化，文化遗产数字化场景适用 |
| 图表识别 | 识别图表并转换为可编辑的表格数据 |
| 文档格式互转 | Word / Excel / PPT 等常见办公文档转 Markdown |
| 输出格式 | Markdown / JSON / DOCX / HTML / TXT，按需选择 |

模型规格

不同场景对精度和效率的要求不同，提供了多套模型方案：

|----------------------|--------------------------------|------------------|
| 模型 | 定位 | 适用场景 |
| 文档视觉语言模型 0.9B 参数 | 端到端文档解析，图片/PDF → Markdown/JSON | RAG 数据预处理、文档数字化 |
| PP-OCRv5 检测+识别 | 通用文字检测和识别，极致高效 | 卡证识别、街景文字、批量 OCR |
| PP-StructureV3 版面+表格 | 版面分析 + 表格识别 + 结构还原 | 合同/发票/报告结构化提取 |

**💡 选型建议：**日常文字识别用 PP-OCRv5，速度最快；需要完整文档解析（版面还原+表格+公式）用文档 VLM 模型；合同/发票/报告提取用 PP-StructureV3。

怎么用

三行代码开始识别，不需要深度学习背景：

命令行方式

安装

pip install paddleocr

图片文字识别

paddleocr --image_dir ./image.jpg --lang ch

PDF 转 Markdown（含表格、公式）

paddleocr --image_dir ./document.pdf --pipeline structure_v3

Python SDK

from paddleocrimportPaddleOCR

ocr=PaddleOCR(lang='ch')

result=ocr.ocr('image.jpg')

forlineinresult $0$ :

print(line $1$ $0$ ) # 识别结果

在线体验

不想装环境？官方提供在线体验中心，上传图片或 PDF 直接看结果，零配置上手。

部署与集成

|----------|------------------------------------------------|
| 方式 | 说明 |
| Python 包 | pip install 即用，3 行代码出结果，适合开发集成 |
| HTTP 服务 | 一键部署 Docker 镜像，任意语言通过 REST API 调用 |
| C++ SDK | 本地 C++ 部署方案，性能与 Python 一致，适合系统集成 |
| 浏览器端 | JavaScript SDK，纯前端运行，无需后端服务 |
| ONNX 导出 | 导出为标准 ONNX 格式，用 TensorRT / OpenVINO 等加速推理 |
| 硬件支持 | NVIDIA GPU / Intel CPU / 苹果 M 系列 / 各类 AI 加速器均可 |

适用场景

|----------|--------------------------------------|
| 场景 | 怎么用 |
| 卡证识别 | 身份证、营业执照、护照、银行卡------拍照即识别，结构化输出 |
| 合同/发票提取 | 批量扫描合同和发票 → 自动提取关键字段 → 写入 Excel 或数据库 |
| 文档数字化 | 纸质档案/图书扫描 → 版面还原 → Markdown/JSON 存档 |
| 大模型数据预处理 | PDF/扫描件 → 结构化文本 → 喂给 RAG 系统或训练大模型 |
| 古籍数字化 | 古籍扫描件 → 文字识别 + 生僻字处理 → 可检索的数字文本 |
| 试卷批改 | 手写试卷 → 公式识别 → 自动批改与错题分析 |
| 多语言翻译 | 外文资料扫描 → OCR 提取 → 接入翻译 API → 双语对照输出 |

性能亮点

|--------|---------------------------------------------|
| 指标 | 表现 |
| 文档解析精度 | OmniDocBench v1.6 达到 96.3%，超越多数闭源方案 |
| 语言支持 | 109 种语言，含中文、英文、日文、阿拉伯文、藏文等 |
| 模型体积 | VLM 模型仅 0.9B 参数，识别模型 2M 参数，极致轻量 |
| 推理速度 | 支持多 GPU 并行推理，单卡可同时处理多张图片 |
| 跨平台 | Windows / Linux / macOS 全支持，Python 3.8-3.12 |
| 生态集成 | 被 Dify、RAGFlow、Cherry Studio 等 6000+ 项目采用 |

与传统 OCR 的区别

|------|---------|----------------------------|
| 对比维度 | 传统 OCR | 这个引擎 |
| 识别能力 | 纯文本 | 文本 + 表格 + 公式 + 印章 + 图表 |
| 输出格式 | TXT 文本流 | 结构化 Markdown / JSON / DOCX |
| 版面理解 | 无序输出 | 保留阅读顺序和层级结构 |
| 表格处理 | 丢失结构 | 识别为可编辑的 HTML/Excel |
| 场景适应 | 扫描件专用 | 扫描件/拍照/街景/屏幕截图通吃 |

环境要求

|--------|----------------------------------------|
| 项目 | 要求 |
| 操作系统 | Windows 10+ / Linux / macOS 12+ |
| Python | 3.8 - 3.12 |
| 硬件 | CPU 可跑；GPU（NVIDIA / Apple Silicon）加速推理 |
| 协议 | Apache 2.0，商业使用友好 |

常见问题

|------------------|------------------------------------------------------|
| 收费吗？ | 不收费。Apache 2.0 开源协议，商用也没问题。 |
| 需要联网吗？ | 不需要。模型本地运行，图片不离开你的服务器。 |
| 中文效果如何？ | 中文是核心优化方向，准确率业界领先。支持简体、繁体、竖排文字。 |
| 能处理手写体吗？ | 能。对手写文字、古籍、生僻字有专项优化。 |
| 能处理多页 PDF 吗？ | 能。支持自动跨页表格合并和分层标题识别。 |
| 能集成到我的产品里吗？ | 可以。提供 Python SDK / C++ SDK / HTTP API / JS SDK 多种方式。 |

典型应用场景

下面这些场景是这个引擎最擅长解决的问题，照着抄作业就行：

|-----------|------------------|--------------------------|-------------------|
| 场景 | 输入 | 处理方式 | 输出 |
| 合同/发票批量提取 | 扫描件/照片 | 版面分析 + 文字识别 + 关键字段正则匹配 | Excel 汇总表 / 数据库入库 |
| RAG 文档预处理 | PDF / Word / PPT | 统一转 Markdown + 表格保留结构 | LLM 可读的结构化文档 |
| 卡证实名认证 | 身份证/护照/营业执照照片 | 卡证检测 + 文字识别 + 结构化提取 | 姓名/身份证号/有效期等字段 |
| 图书/档案数字化 | 纸质书籍/档案扫描件 | 批量 OCR + 版面还原 + 章节索引 | 全文可搜索的数字文档 |
| 试卷/作业批改 | 手写试卷扫描 | 手写体识别 + 公式转 LaTeX + 答案比对 | 分数 + 错题分析报告 |
| 产品详情提取 | 电商截图/商品标签照片 | 通用文字检测 + 关键信息提取 | 商品名/规格/价格/条码 |
| 古籍/文献研究 | 古籍扫描件 | 生僻字识别 + 竖排文字处理 | 可检索、可引用的数字化文本 |

适合谁？不适合谁？

✅ 特别适合

· 需要从发票、合同、表格里批量提取数据的财务/法务/行政人员

· 做 RAG、文档问答、知识库产品的 AI 应用开发者

· 需要把纸质档案、书籍、古籍数字化的图书馆/档案馆/研究机构

· 需要身份证、营业执照等卡证自动录入的业务系统

· 需要给视频截图、街景照片、屏幕截图加文字识别能力的应用

· 不想被年度授权费绑架、想用开源方案替代商业 OCR 的团队

⚠️ 不太适合

· 需要高精度手写英文连笔字识别的场景------中文手写很好，英文连笔不是强项

· 对实时视频流中文字识别的延迟要求在 100ms 以内的场景------更适合离线批处理

· 完全不需要任何技术背景、只想装一个 App 拍照就能用的纯 C 端用户

**📊 如果你刚好卡在中间：**有编程基础但不想折腾环境，先用在线体验中心试试效果；需要集成但不想管部署，直接用官方 HTTP API 或 Docker 镜像一行命令启动服务。

全功能 OCR 与文档解析引擎 ------ 让图片和 PDF 里的信息可编辑、可检索、可分析

如果觉得有用，欢迎点赞 · 在看 · 转发 📄

感兴趣的可以逛逛 www.ppcodes.cn，我会不定期分享一些项目搭建踩坑经验和行业观察。

一个开源 OCR 引擎，支持 100+ 语言，能识别表格、公式、印章，而且完全免费