[cmake]基于C++使用纯opencv部署ppocrv5v6的onnx模型

基于 PaddleOCR v5/v6 的 Windows C++ 控制台 OCR 识别程序

项目简介

本项目是 C++ 控制台实现 ,通过动态加载 PPOCR.dll 调用 PaddleOCR v5/v6 系列 ONNX 模型,在 Windows 平台使用 OpenCV DNN 推理引擎实现本地文字识别。程序以控制台交互方式运行,支持多套模型切换、循环批量识别,结构清晰、依赖简洁。


算法原理

整体 OCR 流水线

采用经典的 三阶段 OCR 流水线 架构:

复制代码
输入图片 → 文字检测(Det) → 方向分类(Cls,可选) → 文字识别(Rec) → 输出结果
1. 文字检测(Detection)

使用 DB(Differentiable Binarization) 算法检测文字区域:

  1. 将输入图片等比缩放至 limit_side_len = 960,保持长宽比
  2. 通过轻量级 CNN 骨干网络(MobileNetV3 / ResNet)提取多尺度特征
  3. 使用 FPN(Feature Pyramid Network)融合多尺度特征图
  4. 输出概率图,经阈值化(det_db_thresh = 0.3)生成二值图
  5. 对二值图做轮廓检测,使用 Vatti 裁剪算法膨胀(det_db_unclip_ratio = 1.6)得到最终文字区域多边形框
  6. 过滤置信度低于 det_db_box_thresh = 0.6 的框
2. 方向分类(Classification,可选)
  • 仅 PPOCRv5 Mobile 模型默认启用
  • 使用轻量级分类模型判断文字区域是否需要旋转 180°
  • 分类阈值 cls_thresh = 0.9
3. 文字识别(Recognition)

使用 CRNN + CTC 架构进行文字识别:

  1. 将检测到的文字区域裁剪并缩放到统一高度(rec_img_h = 48
  2. 通过 CNN 提取视觉特征序列
  3. 使用 BiLSTM 编码序列上下文
  4. 通过 CTC(Connectionist Temporal Classification)解码输出文字
  5. 支持批量推理(rec_batch_num = 4)提升效率

推理引擎

程序通过动态加载 PPOCR.dll(C 接口),底层使用 Intel OpenVINO 推理引擎,支持:

  • ONNX 模型格式直接加载
  • CPU 推理
  • 多线程推理(predictor_num = 4

支持的模型

模型名称 检测模型 识别模型 方向分类 说明
PPOCRv5 Mobile PP-OCRv5_mobile_det PP-OCRv5_mobile_rec 支持 轻量级,适合嵌入式场景
PPOCRv5 Server PP-OCRv5_server_det PP-OCRv5_server_rec 不支持 高精度,适合服务器部署
PPOCRv6 Tiny PP-OCRv6_tiny_det PP-OCRv6_tiny_rec 不支持 最小体积,速度最快
PPOCRv6 Small PP-OCRv6_small_det PP-OCRv6_small_rec 不支持 平衡精度与速度(推荐)

环境要求

项目 要求
操作系统 Windows 10 / 11 x64
编译工具链 Visual Studio 2019 及以上(MSVC v142+)
CMake 版本 3.20 及以上
C++ 标准 C++17
平台架构 x64(必须)
OpenCV 版本 5.0(world 构建版本)
推理引擎 opencv5.0(已封装在 PPOCR.dll 内)

依赖文件

文件名 说明
PPOCR.dll OCR 推理核心 DLL(封装 OpenCV + PPOCR 算法)
opencv_world500.dll OpenCV 5.0 运行时库
inference/ 目录 ONNX 模型文件及字典文件

安装步骤

1. 准备源码

bash 复制代码
cd C:\Users\Administrator\Downloads\code
# 确保 FIRC_CPP 目录已存在

2. 准备 lib 目录

在项目根目录下创建 lib/ 文件夹,放入以下文件:

复制代码
FIRC_CPP/
└── lib/
    ├── PPOCR.dll
    └── inference/
        ├── PP-OCRv5_mobile_det_onnx.onnx
        ├── PP-OCRv5_mobile_rec_onnx.onnx
        ├── PP-OCRv5_mobile_cls_onnx.onnx
        ├── PP-OCRv5_server_det_infer.onnx
        ├── PP-OCRv5_server_rec_infer.onnx
        ├── PP-OCRv6_small_det.onnx
        ├── PP-OCRv6_small_rec.onnx
        ├── PP-OCRv6_small_rec_dict.txt
        ├── PP-OCRv6_tiny_det.onnx
        ├── PP-OCRv6_tiny_rec.onnx
        ├── PP-OCRv6_tiny_rec_dict.txt
        └── ppocrv5_dict.txt

3. 配置 OpenCV 路径

打开 CMakeLists.txt,确认以下两处路径与本机实际路径一致:

cmake 复制代码
set(OpenCV_DIR "D:\\lufiles\\opencv500\\build\\x64\\vc16\\lib")   # OpenCV .lib 所在目录
set(OPENCV_BIN_DIR "D:/lufiles/opencv500/build/x64/vc16/bin" ...) # OpenCV .dll 所在目录

4. CMake 生成工程

powershell 复制代码
cd C:\Users\Administrator\Downloads\code\FIRC_CPP
cmake -B build -G "Visual Studio 16 2019" -A x64

若使用 VS2022,将生成器替换为 "Visual Studio 17 2022"

5. 编译

powershell 复制代码
cmake --build build --config Release

编译完成后,CMake post-build 步骤会自动将以下文件复制到输出目录 build\Release\

  • PPOCR.dll(从 lib/
  • opencv_world500.dll(从 OpenCV bin 目录)
  • inference/ 整个目录(从 lib/inference/

运行步骤

1. 启动程序

powershell 复制代码
cd build\Release

# 交互模式(启动后手动输入图片路径)
.\FIRC_CPP.exe


### 2. 选择模型

程序启动后显示模型菜单:

===== 选择 OCR 模型 =====

1 v5 mobile

2 v5 server

3 v6 small

4 v6 tiny

请选择 (1-4,默认4):

复制代码
输入数字选择模型,直接回车默认使用 **v6 tiny**。

### 3. 输入图片路径

请输入图片路径 (直接回车使用 3.jpg): test.jpg

复制代码
程序自动识别并输出结果:

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

耗时: 186.32 ms | 识别到 5 个文本区域

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1 你好世界 (score=0.97) box: (10,20) (200,20) (200,60) (10,60)

2 Hello OCR (score=0.95) box: ...

...

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

复制代码
### 4. 循环识别

识别完成后程序不退出,可继续输入新的图片路径进行识别:

请输入图片路径 (回车重新识别当前图片,q 退出): another.jpg

复制代码
- **直接回车**:重新识别当前图片
- **输入新路径**:识别新图片
- **输入 `q`**:退出程序,自动释放模型资源

---

## 注意事项

1. **必须使用 x64 平台**:`PPOCR.dll` 和 `opencv_world500.dll` 均为 64 位,不支持 x86。

2. **CMake 缓存问题**:修改 `CMakeLists.txt` 中的 `CACHE` 变量(如 `PPOCR_DIR`、`OPENCV_BIN_DIR`)后,需要删除 `build/` 目录重新生成,否则旧值会被缓存:
   ```powershell
   Remove-Item build -Recurse -Force
   cmake -B build -G "Visual Studio 16 2019" -A x64
  1. 中文路径支持 :程序内置了中文路径兼容处理(先尝试 cv::imread,失败后回退到二进制读取 + cv::imdecode),但建议使用纯英文路径以避免潜在问题。

  2. 控制台中文显示 :程序启动时调用 SetConsoleOutputCP(65001) 将控制台切换为 UTF-8 编码。推荐使用 Windows Terminal 运行,旧版 cmd.exe 的某些字体可能出现显示异常。

  3. 模型文件完整性inference/ 目录下的 ONNX 模型和字典文件必须完整,缺失任一会导致对应模型初始化失败。

  4. 内存占用:Server 模型(v5 server)文件体积较大(约 170MB),加载时内存占用较高。内存不足时建议使用 Tiny 或 Small 模型。

  5. CPU 推理性能 :默认使用 CPU 推理,大尺寸图片识别耗时较长。可通过修改 main.cpp 中的 limit_side_lenrec_batch_numpredictor_num 等参数调整性能。

  6. DLL 加载失败排查:若启动时提示"无法加载 PPOCR.dll",请确认:

    • PPOCR.dll 已正确复制到 build\Release\ 目录
    • opencv_world500.dllPPOCR.dll 在同一目录
    • 系统 PATH 中没有冲突的旧版本 OpenCV DLL

文件夹结构

复制代码
FIRC_CPP/
├── CMakeLists.txt              # CMake 构建配置
├── src/
│   ├── main.cpp                # 控制台主程序入口
│   ├── ocr_engine.h            # OCREngine 封装类声明
│   ├── ocr_engine.cpp          # OCREngine 实现(动态加载 PPOCR.dll)
│   └── json_parser.h           # 极简 JSON 解析器(解析 OCR 结果)
├── lib/                        # 运行时依赖(需手动准备)
│   ├── PPOCR.dll               # OCR 推理核心 DLL
│   └── inference/              # ONNX 模型及字典文件
│       ├── PP-OCRv5_mobile_det_onnx.onnx
│       ├── PP-OCRv5_mobile_rec_onnx.onnx
│       ├── PP-OCRv5_mobile_cls_onnx.onnx
│       ├── PP-OCRv5_server_det_infer.onnx
│       ├── PP-OCRv5_server_rec_infer.onnx
│       ├── PP-OCRv6_small_det.onnx
│       ├── PP-OCRv6_small_rec.onnx
│       ├── PP-OCRv6_small_rec_dict.txt
│       ├── PP-OCRv6_tiny_det.onnx
│       ├── PP-OCRv6_tiny_rec.onnx
│       ├── PP-OCRv6_tiny_rec_dict.txt
│       └── ppocrv5_dict.txt
└── build/                      # CMake 构建输出(自动生成)
    └── Release/
        ├── FIRC_CPP.exe        # 编译输出可执行文件
        ├── PPOCR.dll           # 自动从 lib/ 复制
        ├── opencv_world500.dll # 自动从 OpenCV bin 复制
        └── inference/          # 自动从 lib/inference/ 复制
相关推荐
玖玥拾1 小时前
C/C++ 数据结构(六)链表迭代器与底层
c语言·数据结构·c++·链表·stl库
牛油果子哥q1 小时前
AVL平衡树与红黑树深度精讲对比,平衡因子、四大旋转原理、着色规则、平衡策略、性能差异与面试手撕全解
数据结构·c++·面试
汉克老师2 小时前
GESP7级C++考试语法知识(二、指数函数(3、综合练习)
c++·算法·数学建模·指数函数·gesp7级·复利
C++ 老炮儿的技术栈2 小时前
Ubuntu root账号自动登陆
linux·运维·服务器·c语言·c++·ubuntu·visual studio
Irissgwe2 小时前
map/set/multimap/multiset 的底层逻辑与实现
数据结构·c++·算法·二叉树·stl·c·红黑树
(Charon)3 小时前
【C++ 面试高频:内存管理、RAII 和智能指针详解】
java·开发语言·word
凡人叶枫3 小时前
Effective C++ 条款39:明智而审慎地使用 private 继承
java·数据库·c++·嵌入式开发
不想写代码的星星3 小时前
伪共享:逻辑无共享,物理打成狗
c++