轻量级OCR - 技术栈

业务介绍

业务：主要识别货架上的角度各式各样的英文字母和数字，8GB内存嵌入式运行。

PaddleOCR模型

PaddleOCR的PP-OCR系列超轻量模型是平衡精度、资源占用和多角度识别能力的最佳选择。

方案	推荐度	资源占用 (内存/存储)	多角度支持	英文数字精度	部署难度
PaddleOCR (PP-OCR系列)	★★★★★	低 (存储<10MB, 内存约200-400MB)	极佳 (内置方向分类器)	极高 (工业级)	低 (官方预模型，开箱即用)
Tesseract	★★★☆☆	极低 (引擎约4MB, 语言包~50MB)	一般 (对大幅倾斜敏感，需预处理)	高 (98%+)	低 (经典方案，资料丰富)
GLM-OCR	★★★☆☆	中等 (量化后模型约200MB, 内存约400MB)	极佳 (版面分析强)	极高	中等 (需配置环境)

PaddleOCR的优势

天生为多角度而生 ：PP-OCR系列模型内置了文字方向分类器，能自动检测并修正倾斜、旋转甚至倒置的文字，精准识别任意角度的编码，这能省去大量图片预处理的麻烦。
为嵌入式环境"瘦身"：
- 极致轻量 ：其超轻量模型PP-OCRv3 体积仅8.6MB ，而移动端专用的PP-TinyOCR 推理速度可达**<100ms**。8GB的内存对它来说绰绰有余。
- 加速与量化：针对ARM平台，可通过Paddle Lite框架进行优化；若设备有NPU（如RK3588），还能进一步降低功耗并提速。
字母数字识别是看家本领：
- 高精度：工业级的精度能确保货架编码的读取准确率，这对于仓储物流场景至关重要。
- 专注任务 ：在处理纯英文数字时，可以通过参数设置识别字符集白名单（如"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ"），这能进一步提升速度和准确率，避免将字母误识别为其他符号。

Jetson部署

Jetson Orin系列，GPU算力更强，可以考虑直接用FP16精度模型获得最佳效果；

如果是老款Nano，强烈建议采用INT8量化方案。

在8GB嵌入式设备上，可以先从官方模型开始测试。

bash 复制代码

from paddleocr import PaddleOCR
# 使用英文模型，并启用方向分类器
ocr = PaddleOCR(use_angle_cls=True, lang='en') 
result = ocr.ocr('shelf_image.jpg', cls=True)

# 处理识别结果
for line in result:
    for word_info in line:
        # word_info[0] 是坐标，word_info[1][0] 是识别的文本
        print(f"识别文本: {word_info[1][0]}, 置信度: {word_info[1][1]}")

关键优化步骤

减少干扰 ：在代码中设置 det_db_thresh=0.3 和 det_db_box_thresh=0.3 提高检测敏感度；并通过 rec_char_type='en' 和 rec_whitelist 限定只识别需要的大写字母和数字。
图像预处理：为确保识别效果，可以考虑在送入模型前，增加图片预处理步骤，根据现场光照情况自动调整对比度和二值化。
启用加速 ：如果设备是Jetson系列，利用其TensorRT框架对模型进行INT8量化，可将模型体积再压缩75%，同时提升推理速度。

PaddleOCR还可以在 CPU 上运行，而且针对树莓派 4B 这类 ARM 架构设备做了专门的优化。

对于"英文字母和数字"识别任务，官方推荐从 PP-OCRv5-mobile 模型入手。在树莓派 4B（4GB 内存版本）上运行 PaddleOCR 的轻量化模型（PP-OCRv3），主要性能指标如下：

性能指标	实测数据	说明
模型大小	8.6 MB (量化后)	超轻量设计，对存储和内存都非常友好。
推理速度	100 - 200 毫秒/张	可以流畅处理单张图片；如果进行系统优化，速度还能更快。
内存占用	峰值约 400 MB	在8GB 内存设备上完全没问题。，并且可以通过进一步裁剪和量化（INT8）来换取更快的速度

树莓派部署

1. 环境准备

建议使用 pip 直接安装，注意树莓派需要安装 ARM 架构专用的 PaddlePaddle 包。

bash 复制代码

# 安装 PaddlePaddle (请前往官网获取适用于树莓派ARM架构的安装命令)
# 示例: python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

# 安装 PaddleOCR
pip3 install paddleocr

2. 编写测试代码

python 复制代码

from paddleocr import PaddleOCR

# 初始化 OCR 引擎
# 参数含义：
#   use_angle_cls: 开启方向分类器，能更好处理倾斜文字
#   lang: 设置语言为英文，让模型专注于识别字母数字，提升速度和准确度
ocr = PaddleOCR(use_angle_cls=True, lang='en')

# 识别图片，'cls'参数同时开启方向校正
img_path = 'your_shelf_code.jpg'
result = ocr.ocr(img_path, cls=True)

# 打印结果
for line in result:
    for word_info in line:
        # 输出格式: [[坐标], (识别文本, 置信度)]
        print(f"识别结果: {word_info[1][0]}, 置信度: {word_info[1][1]:.2f}")

3. 提升性能的一些优化思路

进一步裁剪模型：既然场景非常明确（英文字母和数字），可以移除模型中对中文等无关字符的分类头，这能有效减小模型体积并提升推理速度。
开启 INT8 量化：这是边缘设备上提速最显著的手段之一。通过 PaddleSlim 工具可以将模型转换为 INT8 精度，通常能将推理速度提升 2-3 倍，同时模型大小减少 75%，且精度损失在可接受范围内。
使用 ONNX Runtime：ONNX Runtime (ORT) 是一个高效的推理引擎。将 PaddleOCR 模型转换为 ONNX 格式后，在某些边缘设备上可以获得比原生的 Paddle Inference 更高的推理效率。
启用内存优化：在部署代码中开启内存优化选项，可以有效降低程序运行时的峰值内存占用，让系统运行更稳定。