基于CPU使用paddlex OCR识别图片内容

一、安装 Miniconda(轻量版 Conda)​

paddlex CPU版本使用avx指令加速,需要确保系统和CPU支持avx指令(centos 7不支持)。

检查是否支持avx指令

bash 复制代码
dmesg | grep -i avx

查看 x86还是arm

bash 复制代码
uname -m

1. 下载 Miniconda 安装脚本

bash 复制代码
 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2. 运行安装脚本

bash 复制代码
bash Miniconda3-latest-Linux-x86_64.sh
复制代码
Miniconda3 will now be installed into this location:
/home/super/miniconda3

[/home/super/miniconda3] >>> 
PREFIX=/home/super/miniconda3

3. 激活 Conda

bash 复制代码
 source ~/.bashrc  # 若使用 Bash

4. 验证安装

bash 复制代码
conda --version

二、使用 Conda 安装 Python 3.10.0

1. 创建独立环境(推荐)​

bash 复制代码
conda create -n PaddleImageOcr python=3.10.15

2. 激活环境

bash 复制代码
conda activate PaddleImageOcr

3. 验证 Python 版本

bash 复制代码
python --version

三、配置 Conda 镜像源(国内加速)​

1. 生成镜像配置文件

bash 复制代码
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
    conda config --set show_channel_urls yes

2. 查看配置

bash 复制代码
conda config --show channels

四、安装 PaddlePaddle

临时切换国内源

bash 复制代码
export PIP_INDEX_URL=https://mirrors.aliyun.com/pypi/simple

CPU 版本

bash 复制代码
  python -m pip install paddlepaddle==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

GPU 版本,需显卡驱动程序版本 ≥450.80.02(Linux)或 ≥452.39(Windows)

bash 复制代码
  python -m pip install paddlepaddle-gpu==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

GPU 版本,需显卡驱动程序版本 ≥545.23.06(Linux)或 ≥545.84(Windows)

bash 复制代码
  python -m pip install paddlepaddle-gpu==3.0.0rc0 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/

五、安装PaddleX

bash 复制代码
  pip install https://paddle-model-ecology.bj.bcebos.com/paddlex/whl/paddlex-3.0.0rc0-py3-none-any.whl

六、执行图片OCR

bash 复制代码
  paddlex --pipeline OCR --input ./20250306-152918.jpg --device cpu
  paddlex --pipeline OCR --input D:/temp/tess4j/20250306-152918.jpg --device cpu

输出结果

耗时10s,准确率较高,图片分辨率不高也能识别。

七、安装Paddle Serving服务端​(需Python环境):

安装服务化部署插件

bash 复制代码
  paddlex --install serving

启动服务

bash 复制代码
nohup paddlex --serve --port 8080 --pipeline OCR --device cpu --save_path /tmp/PaddleImageOcr > paddleImageOcr.log 2>&1 &

http请求

bash 复制代码
curl --location '127.0.0.1:8080/ocr' \
--header 'Content-Type: application/json' \
--data '{
   "file":"https://oss.xxx.com/image/xxx.jpg"
}'

问题

ERROR: Could not find a version that satisfies the requirement Pillow (from paddlepaddle) (from versions: none)

设定安装源、信任安装源、PIL已被Pillow替代

bash 复制代码
 pip install Pillow -i http://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host pypi.tuna.tsinghua.edu.cn
相关推荐
TextIn智能文档云平台1 小时前
PDF文档解析新突破:图表识别、公式还原、手写字体处理,让AI真正读懂复杂文档!
图像处理·人工智能·算法·自然语言处理·pdf·ocr
old_power1 小时前
【Python】PDF文件处理(PyPDF2、borb、fitz)
python·pdf
测试开发Kevin1 小时前
从投入产出、效率、上手难易度等角度综合对比 pytest 和 unittest 框架
python·pytest
强化学习与机器人控制仿真1 小时前
Newton GPU 机器人仿真器入门教程(零)— NVIDIA、DeepMind、Disney 联合推出
开发语言·人工智能·python·stm32·深度学习·机器人·自动驾驶
Tiny番茄2 小时前
No module named ‘xxx’报错原因及解决方式
开发语言·python
老朋友此林4 小时前
MiniMind:3块钱成本 + 2小时!训练自己的0.02B的大模型。minimind源码解读、MOE架构
人工智能·python·nlp
宸汐Fish_Heart5 小时前
Python打卡训练营Day22
开发语言·python
伊织code5 小时前
PyTorch API 9 - masked, nested, 稀疏, 存储
pytorch·python·ai·api·-·9·masked
wxl7812276 小时前
基于flask+pandas+csv的报表实现
python·flask·pandas
鸡鸭扣7 小时前
DRF/Django+Vue项目线上部署:腾讯云+Centos7.6(github的SSH认证)
前端·vue.js·python·django·腾讯云·drf