OCR · 文档解析 · 大模型数据预处理
一个把图片和PDF变成结构化数据的OCR引擎
100+ 语言 · 端到端识别 · 表格/公式/印章 · Apache 协议
如果你经常需要从图片、扫描件、PDF里提取文字,或者想把一沓合同/发票/报告批量转成 Excel 或 Markdown------这个工具就是为你准备的。
它是一个全功能的 OCR 与文档解析引擎,开源、免费、MIT 协议。图片扔进去,文本、表格、公式、版面结构全给你解析出来。
它能做什么
不是一个简单的"图片转文字"工具,而是一个完整的文档理解引擎。核心能力分三大块:
- 智能文档解析------面向大模型
把杂乱的 PDF 和扫描件自动转换成结构化的 Markdown 或 JSON。内置文档视觉语言模型,能识别文本、表格、公式、图表、印章,准确率超过 96%。特别适合 RAG 应用和大模型训练数据的预处理------Dify、RAGFlow 等项目已经在用。
- 通用文字识别
支持 100+ 种语言的文本检测和识别。卡证、街景、书籍、屏幕截图、工业零部件------什么场景的图片都能处理。多语言混合排版(中英日韩拼音混排)也能准确识别。
- 版面结构分析
自动检测页面中的标题、段落、表格、图片区域,输出带有精确定位坐标的结构化结果。复杂排版的 PDF(双栏、混排、表格嵌套)也能准确还原阅读顺序。
核心能力一览
|---------|------------------------------------------|
| 能力 | 说明 |
| 文本检测与识别 | 定位图像中的文字区域并识别内容,支持倾斜、弯曲、模糊等多种复杂情况 |
| 多语言支持 | 覆盖 100+ 种语言,包括中英日韩法德俄阿拉伯文以及藏文、孟加拉语等 |
| 表格识别 | 自动检测并解析表格结构,输出 HTML / Excel 格式,支持跨页表格合并 |
| 公式识别 | 识别数学公式并输出 LaTeX 格式,论文、教材、试卷数字化必备 |
| 印章识别 | 检测并提取合同、文件中的印章信息,包括圆形章、椭圆章等 |
| 版面分析 | 识别标题、正文、页眉页脚、图片区域,还原文档阅读顺序 |
| 古籍/生僻字 | 针对古籍、手写体、生僻字有专门优化,文化遗产数字化场景适用 |
| 图表识别 | 识别图表并转换为可编辑的表格数据 |
| 文档格式互转 | Word / Excel / PPT 等常见办公文档转 Markdown |
| 输出格式 | Markdown / JSON / DOCX / HTML / TXT,按需选择 |
模型规格
不同场景对精度和效率的要求不同,提供了多套模型方案:
|----------------------|--------------------------------|------------------|
| 模型 | 定位 | 适用场景 |
| 文档视觉语言模型 0.9B 参数 | 端到端文档解析,图片/PDF → Markdown/JSON | RAG 数据预处理、文档数字化 |
| PP-OCRv5 检测+识别 | 通用文字检测和识别,极致高效 | 卡证识别、街景文字、批量 OCR |
| PP-StructureV3 版面+表格 | 版面分析 + 表格识别 + 结构还原 | 合同/发票/报告结构化提取 |
**💡 选型建议:**日常文字识别用 PP-OCRv5,速度最快;需要完整文档解析(版面还原+表格+公式)用文档 VLM 模型;合同/发票/报告提取用 PP-StructureV3。
怎么用
三行代码开始识别,不需要深度学习背景:
命令行方式
安装
pip install paddleocr
图片文字识别
paddleocr --image_dir ./image.jpg --lang ch
PDF 转 Markdown(含表格、公式)
paddleocr --image_dir ./document.pdf --pipeline structure_v3
Python SDK
from paddleocrimportPaddleOCR
ocr=PaddleOCR(lang='ch')
result=ocr.ocr('image.jpg')
forlineinresult0:
print(line10) # 识别结果
在线体验
不想装环境?官方提供在线体验中心,上传图片或 PDF 直接看结果,零配置上手。
部署与集成
|----------|------------------------------------------------|
| 方式 | 说明 |
| Python 包 | pip install 即用,3 行代码出结果,适合开发集成 |
| HTTP 服务 | 一键部署 Docker 镜像,任意语言通过 REST API 调用 |
| C++ SDK | 本地 C++ 部署方案,性能与 Python 一致,适合系统集成 |
| 浏览器端 | JavaScript SDK,纯前端运行,无需后端服务 |
| ONNX 导出 | 导出为标准 ONNX 格式,用 TensorRT / OpenVINO 等加速推理 |
| 硬件支持 | NVIDIA GPU / Intel CPU / 苹果 M 系列 / 各类 AI 加速器均可 |
适用场景
|----------|--------------------------------------|
| 场景 | 怎么用 |
| 卡证识别 | 身份证、营业执照、护照、银行卡------拍照即识别,结构化输出 |
| 合同/发票提取 | 批量扫描合同和发票 → 自动提取关键字段 → 写入 Excel 或数据库 |
| 文档数字化 | 纸质档案/图书扫描 → 版面还原 → Markdown/JSON 存档 |
| 大模型数据预处理 | PDF/扫描件 → 结构化文本 → 喂给 RAG 系统或训练大模型 |
| 古籍数字化 | 古籍扫描件 → 文字识别 + 生僻字处理 → 可检索的数字文本 |
| 试卷批改 | 手写试卷 → 公式识别 → 自动批改与错题分析 |
| 多语言翻译 | 外文资料扫描 → OCR 提取 → 接入翻译 API → 双语对照输出 |
性能亮点
|--------|---------------------------------------------|
| 指标 | 表现 |
| 文档解析精度 | OmniDocBench v1.6 达到 96.3%,超越多数闭源方案 |
| 语言支持 | 109 种语言,含中文、英文、日文、阿拉伯文、藏文等 |
| 模型体积 | VLM 模型仅 0.9B 参数,识别模型 2M 参数,极致轻量 |
| 推理速度 | 支持多 GPU 并行推理,单卡可同时处理多张图片 |
| 跨平台 | Windows / Linux / macOS 全支持,Python 3.8-3.12 |
| 生态集成 | 被 Dify、RAGFlow、Cherry Studio 等 6000+ 项目采用 |
与传统 OCR 的区别
|------|---------|----------------------------|
| 对比维度 | 传统 OCR | 这个引擎 |
| 识别能力 | 纯文本 | 文本 + 表格 + 公式 + 印章 + 图表 |
| 输出格式 | TXT 文本流 | 结构化 Markdown / JSON / DOCX |
| 版面理解 | 无序输出 | 保留阅读顺序和层级结构 |
| 表格处理 | 丢失结构 | 识别为可编辑的 HTML/Excel |
| 场景适应 | 扫描件专用 | 扫描件/拍照/街景/屏幕截图通吃 |
环境要求
|--------|----------------------------------------|
| 项目 | 要求 |
| 操作系统 | Windows 10+ / Linux / macOS 12+ |
| Python | 3.8 - 3.12 |
| 硬件 | CPU 可跑;GPU(NVIDIA / Apple Silicon)加速推理 |
| 协议 | Apache 2.0,商业使用友好 |
常见问题
|------------------|------------------------------------------------------|
| 收费吗? | 不收费。Apache 2.0 开源协议,商用也没问题。 |
| 需要联网吗? | 不需要。模型本地运行,图片不离开你的服务器。 |
| 中文效果如何? | 中文是核心优化方向,准确率业界领先。支持简体、繁体、竖排文字。 |
| 能处理手写体吗? | 能。对手写文字、古籍、生僻字有专项优化。 |
| 能处理多页 PDF 吗? | 能。支持自动跨页表格合并和分层标题识别。 |
| 能集成到我的产品里吗? | 可以。提供 Python SDK / C++ SDK / HTTP API / JS SDK 多种方式。 |
典型应用场景
下面这些场景是这个引擎最擅长解决的问题,照着抄作业就行:
|-----------|------------------|--------------------------|-------------------|
| 场景 | 输入 | 处理方式 | 输出 |
| 合同/发票批量提取 | 扫描件/照片 | 版面分析 + 文字识别 + 关键字段正则匹配 | Excel 汇总表 / 数据库入库 |
| RAG 文档预处理 | PDF / Word / PPT | 统一转 Markdown + 表格保留结构 | LLM 可读的结构化文档 |
| 卡证实名认证 | 身份证/护照/营业执照照片 | 卡证检测 + 文字识别 + 结构化提取 | 姓名/身份证号/有效期等字段 |
| 图书/档案数字化 | 纸质书籍/档案扫描件 | 批量 OCR + 版面还原 + 章节索引 | 全文可搜索的数字文档 |
| 试卷/作业批改 | 手写试卷扫描 | 手写体识别 + 公式转 LaTeX + 答案比对 | 分数 + 错题分析报告 |
| 产品详情提取 | 电商截图/商品标签照片 | 通用文字检测 + 关键信息提取 | 商品名/规格/价格/条码 |
| 古籍/文献研究 | 古籍扫描件 | 生僻字识别 + 竖排文字处理 | 可检索、可引用的数字化文本 |
适合谁?不适合谁?
✅ 特别适合
· 需要从发票、合同、表格里批量提取数据的财务/法务/行政人员
· 做 RAG、文档问答、知识库产品的 AI 应用开发者
· 需要把纸质档案、书籍、古籍数字化的图书馆/档案馆/研究机构
· 需要身份证、营业执照等卡证自动录入的业务系统
· 需要给视频截图、街景照片、屏幕截图加文字识别能力的应用
· 不想被年度授权费绑架、想用开源方案替代商业 OCR 的团队
⚠️ 不太适合
· 需要高精度手写英文连笔字识别的场景------中文手写很好,英文连笔不是强项
· 对实时视频流中文字识别的延迟要求在 100ms 以内的场景------更适合离线批处理
· 完全不需要任何技术背景、只想装一个 App 拍照就能用的纯 C 端用户
**📊 如果你刚好卡在中间:**有编程基础但不想折腾环境,先用在线体验中心试试效果;需要集成但不想管部署,直接用官方 HTTP API 或 Docker 镜像一行命令启动服务。
全功能 OCR 与文档解析引擎 ------ 让图片和 PDF 里的信息可编辑、可检索、可分析
如果觉得有用,欢迎 点赞 · 在看 · 转发 📄
感兴趣的可以逛逛 www.ppcodes.cn,我会不定期分享一些项目搭建踩坑经验和行业观察。