🏡 事情是这样的,前几个月,回了趟老家。在收拾老家的房间时候,翻出了一大摞小时候写的日记,纸张都泛黄了,字迹歪歪扭扭,觉得蛮有意思的。拍了些照片下来,然后在网上简单找了个 OCR 识别文字记录下... 发现了一个工具 PP-OCRv5。
🔍 PP-OCRv5 和 PaddleOCR 的关系
PaddleOCR 是一个基于 Apache 许可证开源的 OCR 与文档解析工具包,它累计下载量突破 900 万,GitHub Star 数突破 55.1 k,被超 5.9k 开源项目直接或间接使用,PaddleOCR 已成为全球开发者首选的 OCR 工具!也是GitHub 社区中唯一一个 Star数超过 55k 的中国 OCR 项目!

PP-OCRv5 是一款最新的超轻量级文字识别模型,它的参数只有 0.07B,还不到 700 亿参数大模型的千分之一,但识别精度却能与它们相媲美。
在多项 OCR 场景测试中,PP-OCRv5 的表现甚至超过了 GPT-4o、Qwen2.5-VL-72B 等通用视觉大模型!这场 "OCR 比赛"是各有千秋,大显神通!
📜 在线体验
🏹 准备工作
它是分两种的,一种是在线体验,两者都可以,可以先进去:
o 文字识别 PP-OCRv5 🔍 * 传送门*
o 文档解析 PP-StructureV3 🔍 * 传送门*
登录账号后,直接就可以体验了!免费用,不用白不用!操作简单!上传我小时候的小日记先!
🏹 上传与运行

🏹 运行结果


📜 搭一个自己的"PP-OCRv5"
我们作为程序员,安装一个 PP-OCRv5 当然是手到擒来啦!
飞桨官方文档教程 :传送门
python 有吧,记得必备一个啦!

然后,让我们一步步来
📚 完成 wheel 包安装
💻 安装飞桨框架 paddlepaddle
这里就选择通过 pip 安装,官方还有 docker 安装,可自行去选择。👉🏻 传送门
python 安装指令
python -m pip install paddlepaddle==3.0.0 -i www.paddlepaddle.org.cn/packages/st...
python3 安装指令
python3 -m pip install paddlepaddle==3.0.0 -i www.paddlepaddle.org.cn/packages/st...

安装完成后,使用以下命令可以验证 PaddlePaddle 是否安装成功:
python -c "import paddle; print(paddle.version)"
python3 -c "import paddle; print(paddle.version)"

安装成功了,是出现 3.0.0
💻 安装 PaddleOCR
指令我就不多提示了,python3 是要 python3 开头,下面就默认去掉3.
# 只希望使用基础文字识别功能(返回文字位置坐标和文本内容)
python -m pip install paddleocr
# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能
python -m pip install "paddleocr[all]"

在安装的同时呢,提醒一下,如果还有安装训练依赖需求的同学,也可以去官网进行研究,这里不过多阐述了。
💻 一行命令 飞起效果
下载安装完成之后,进行一行代码执行。其中,save_path 是保存结果的路径
# 默认使用 PP-OCRv5 模型
paddleocr ocr -i paddle-model-ecology.bj.bcebos.com/paddlex/img... \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--use_textline_orientation False \
--save_path ./output \
--device gpu:0
那么,就会在当前目录下的 output 文件夹里有可视化的结果啦!(如图下

我们还可以来尝试复杂的场景,不同语言路标!等等

📜 讨论与总结
🔍 小发现
相信大家看操作流程的时候,也发现,在左边的测试文件中,还有很多文档可以测试!
仔细看才知道,原来文本不仅仅是文本,还有很多种类的文本!

🔍 测试化学方程文档
因为对化学比较感兴趣,所以选择一个化学方程,我们一起来看看化学方程公式的效果吧!
操作流程:①点击测试文件 ------》 ②运行 ------》③结果

很明显,它这里有多种结果,供你选择。
版面解析结果、阅读顺序结果、版面区域检测结果、OCR识别结果、JSON结果
🔍 其他还有更多的文档就不一一列举了
这里再丢一次 传送门** 吧!**
o 文字识别 PP-OCRv5 🔍 * 传送门*
o 文档解析 PP-StructureV3 🔍 * 传送门*
🔍 支持公式分数分析

🖥️ 具体应用
学习了解了 PP-OCRv5 相关的知识点,,我想到它能在很多应用场景下"搞一搞"事情!
领域分类 | 具体应用场景 | PP-OCRv5 实现的功能与价值 |
---|---|---|
文档数字化 | 扫描件处理 | 对扫描得到的文档图像,准确识别其中的文字,转化为文本格式。 |
信息提取 | 发票识别 | 自动识别发票上的发票代码、号码、金额、开票日期、购买方和销售方信息等。 |
合同审查 | 识别合同信息,提高审核的效率和准确性 | |
证件识别 | 在安防、酒店入住、机场登机等场景中,证件上的文字信息,快速完成身份验证和信息登记,提升通行效率和安全性。 | |
教育领域 | 试卷作业批改 | 识别学生手写的答案,配合自动批改系统,快速给出成绩和评语 |
教材数字化 | 纸质教材转化为电子版本,方便在电子设备上阅读和学习 | |
医疗行业 | 病历数字化 | 识别病历内容,将其转换为电子病历,便于病历管理、数据分析,支持远程医疗诊断等应用。 |
医疗票据处理 | 识别医疗费用票据上的信息,方便患者进行医保报销和费用核算 | |
工业检测 | 产品标识识别 | 快速识别产品标识信息,确保电子元件生产流程的可追溯性。 |
设备仪表读数识别 | 对于工业设备上的仪表盘、及时获取设备参数。 | |
智能办公 | 邮件文本提取 | 自动识别邮件中的文字内容,快速处理大量邮件,提高办公效率。 |
文档内容搜索 | 文件多、杂的场景,实现对文档和内容检索,使能够快速定位到有效信息,提升信息查找的效率。 | |
移动端应用 | 拍照翻译 | 用户使用手机拍照识别外文文字 |
便签识别 | 将用户手写或拍照记录的便签内容识别为文本 |
📜 结语:PP-OCRv5 是个 "性价比天花板" 的文字识别工具 ------ 又轻又快,还比很多大模型准!所属的 PaddleOCR 项目更是已经被全球几百万开发者验证过,不管是日常用还是企业落地,都是很不错的选择!
