当小学生的手写体也能识别出来,PP-OCRv5 稳了!

🏡 事情是这样的,前几个月,回了趟老家。在收拾老家的房间时候,翻出了一大摞小时候写的日记,纸张都泛黄了,字迹歪歪扭扭,觉得蛮有意思的。拍了些照片下来,然后在网上简单找了个 OCR 识别文字记录下... 发现了一个工具 PP-OCRv5。

🔍 PP-OCRv5 和 PaddleOCR 的关系

PaddleOCR 是一个基于 Apache 许可证开源的 OCR 与文档解析工具包,它累计下载量突破 900 万,GitHub Star 数突破 55.1 k,被超 5.9k 开源项目直接或间接使用,PaddleOCR 已成为全球开发者首选的 OCR 工具!也是GitHub 社区中唯一一个 Star数超过 55k 的中国 OCR 项目!

PP-OCRv5 是一款最新的超轻量级文字识别模型,它的参数只有 0.07B,还不到 700 亿参数大模型的千分之一,但识别精度却能与它们相媲美。

在多项 OCR 场景测试中,PP-OCRv5 的表现甚至超过了 GPT-4o、Qwen2.5-VL-72B 等通用视觉大模型!这场 "OCR 比赛"是各有千秋,大显神通!

📜 在线体验

🏹 准备工作

它是分两种的,一种是在线体验,两者都可以,可以先进去:

o 文字识别 PP-OCRv5 🔍 * 传送门*

o 文档解析 PP-StructureV3 🔍 * 传送门*

登录账号后,直接就可以体验了!免费用,不用白不用!操作简单!上传我小时候的小日记先!

🏹 上传与运行

🏹 运行结果

📜 搭一个自己的"PP-OCRv5"

我们作为程序员,安装一个 PP-OCRv5 当然是手到擒来啦!

飞桨官方文档教程 :传送门

python 有吧,记得必备一个啦!

然后,让我们一步步来

📚 完成 wheel 包安装

💻 安装飞桨框架 paddlepaddle

这里就选择通过 pip 安装,官方还有 docker 安装,可自行去选择。👉🏻 传送门

python 安装指令

python -m pip install paddlepaddle==3.0.0 -i www.paddlepaddle.org.cn/packages/st...

python3 安装指令

python3 -m pip install paddlepaddle==3.0.0 -i www.paddlepaddle.org.cn/packages/st...

安装完成后,使用以下命令可以验证 PaddlePaddle 是否安装成功:

python -c "import paddle; print(paddle.version)"

python3 -c "import paddle; print(paddle.version)"

安装成功了,是出现 3.0.0

💻 安装 PaddleOCR

指令我就不多提示了,python3 是要 python3 开头,下面就默认去掉3.

# 只希望使用基础文字识别功能(返回文字位置坐标和文本内容)

python -m pip install paddleocr

# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能

python -m pip install "paddleocr[all]"

在安装的同时呢,提醒一下,如果还有安装训练依赖需求的同学,也可以去官网进行研究,这里不过多阐述了。

💻 一行命令 飞起效果

下载安装完成之后,进行一行代码执行。其中,save_path 是保存结果的路径

# 默认使用 PP-OCRv5 模型

paddleocr ocr -i paddle-model-ecology.bj.bcebos.com/paddlex/img... \

--use_doc_orientation_classify False \

--use_doc_unwarping False \

--use_textline_orientation False \

--save_path ./output \

--device gpu:0

那么,就会在当前目录下的 output 文件夹里有可视化的结果啦!(如图下

我们还可以来尝试复杂的场景,不同语言路标!等等

📜 讨论与总结

🔍 小发现

相信大家看操作流程的时候,也发现,在左边的测试文件中,还有很多文档可以测试!

仔细看才知道,原来文本不仅仅是文本,还有很多种类的文本!


🔍 测试化学方程文档

因为对化学比较感兴趣,所以选择一个化学方程,我们一起来看看化学方程公式的效果吧!

操作流程:①点击测试文件 ------》 ②运行 ------》③结果


很明显,它这里有多种结果,供你选择。

版面解析结果、阅读顺序结果、版面区域检测结果、OCR识别结果、JSON结果

🔍 其他还有更多的文档就不一一列举了

这里再丢一次 传送门** 吧!**

o 文字识别 PP-OCRv5 🔍 * 传送门*

o 文档解析 PP-StructureV3 🔍 * 传送门*

🔍 支持公式分数分析

🖥️ 具体应用

学习了解了 PP-OCRv5 相关的知识点,,我想到它能在很多应用场景下"搞一搞"事情!

领域分类 具体应用场景 PP-OCRv5 实现的功能与价值
文档数字化 扫描件处理 对扫描得到的文档图像,准确识别其中的文字,转化为文本格式。
信息提取 发票识别 自动识别发票上的发票代码、号码、金额、开票日期、购买方和销售方信息等。
合同审查 识别合同信息,提高审核的效率和准确性
证件识别 在安防、酒店入住、机场登机等场景中,证件上的文字信息,快速完成身份验证和信息登记,提升通行效率和安全性。
教育领域 试卷作业批改 识别学生手写的答案,配合自动批改系统,快速给出成绩和评语
教材数字化 纸质教材转化为电子版本,方便在电子设备上阅读和学习
医疗行业 病历数字化 识别病历内容,将其转换为电子病历,便于病历管理、数据分析,支持远程医疗诊断等应用。
医疗票据处理 识别医疗费用票据上的信息,方便患者进行医保报销和费用核算
工业检测 产品标识识别 快速识别产品标识信息,确保电子元件生产流程的可追溯性。
设备仪表读数识别 对于工业设备上的仪表盘、及时获取设备参数。
智能办公 邮件文本提取 自动识别邮件中的文字内容,快速处理大量邮件,提高办公效率。
文档内容搜索 文件多、杂的场景,实现对文档和内容检索,使能够快速定位到有效信息,提升信息查找的效率。
移动端应用 拍照翻译 用户使用手机拍照识别外文文字
便签识别 将用户手写或拍照记录的便签内容识别为文本

📜 结语:PP-OCRv5 是个 "性价比天花板" 的文字识别工具 ------ 又轻又快,还比很多大模型准!所属的 PaddleOCR 项目更是已经被全球几百万开发者验证过,不管是日常用还是企业落地,都是很不错的选择!

相关推荐
RoyLin3 小时前
TypeScript设计模式:解释器模式
前端·后端·typescript
易元4 小时前
模式组合应用-享元模式
后端·设计模式
对象存储与RustFS4 小时前
零基础小白手把手教程:用Docker和MinIO打造专属私有图床,并完美搭配PicGo
后端
德育处主任4 小时前
文字识别:辛辛苦苦练模型,不如调用PP-OCRv5
后端·图像识别
TeamDev4 小时前
用一个 prompt 搭建带 React 界面的 Java 桌面应用
java·前端·后端
知其然亦知其所以然4 小时前
国产大模型也能无缝接入!Spring AI + 智谱 AI 实战指南
java·后端·算法
悟空码字4 小时前
阿里通义开源啦,源码地址+部署脚本,让AI会“做研究”
后端·阿里巴巴
GalaxyMeteor4 小时前
nodejs (express / koa)项目用ghooks + validate-commit-msg 实现 git提交时校验eslint+提交消息规范验证
后端