paddlehub搭建ocr服务

搭建环境:

  • Ubuntu20.04
  • 1080Ti显卡

由于GPU硬件比较老,是Pascal架构,只能支持到paddle2.4.2版本,更高版本无法支持;同时,因为paddle老版本的依赖发生了变化,有些地方存在冲突,花费了不少时间解决!

1. 安装GPU支持的cuda版本

这里选择的是cuda_12.0.0_525.60.13_linux.run

2. 安装对应的cudnn包

libcudnn8_8.8.0.121-1+cuda12.0_amd64.deb (从nvidia官网下载的cudnn local repo包中提取)

3. 安装对应的nccl包

libnccl2_2.19.3-1+cuda12.0_amd64.deb (从nvidia官网下载的nccl local repo包中提取)

注意:以上两个包默认安装在了/usr/lib/x86_64-linux-gnu目录下,需要在/usr/local/cuda/lib64中建立链接。如:

复制代码
sudo ln -s /usr/lib/x86_64-linux-gnu/libnccl.so libnccl.so

4. 安装miniconda,略

5. 创建虚拟环境

复制代码
conda create -n paddle python=3.8

conda activate paddle

6. 安装paddlepaddle

复制代码
conda install paddlepaddle-gpu==2.4.2 cudatoolkit=11.7 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge

pip install paddlehub -i https://pypi.tuna.tsinghua.edu.cn/simple

注:由于paddlepaddle与paddlehub之间存在版本依赖冲突问题,运行时会报错,可以执行以下命令,降低降低paddlenlp版本

复制代码
pip install paddlenlp==2.5.0 shapely pyclipper -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install protobuf==3.20.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

7. 以服务方式运行

复制代码
hub serving start -m ch_pp_ocrv3
hub serving start -m chinese_ocr_db_crnn_server

如果有多张显卡,可以指定用哪张卡来运行:

复制代码
CUDA_VISIBLE_DEVICES=1 hub serving start -m chinese_ocr_db_crnn_server

可以通过以下方式访问服务

http://127.0.0.1:8866/gradio/ch_pp_ocrv3 访问web

http://127.0.0.1:8866/predict/ch_pp-ocrv3 访问API

python 复制代码
# coding: utf8
import requests
import json
import cv2
import base64

def cv2_to_base64(image):
    data = cv2.imencode('.jpg', image)[1]
    return base64.b64encode(data.tobytes()).decode('utf8')

# 发送HTTP请求
data = {'images':[cv2_to_base64(cv2.imread("/home/zoon/Downloads/3.png"))]}
headers = {"Content-type": "application/json"}
url = "http://127.0.0.1:8866/predict/chinese_ocr_db_crnn_server"
r = requests.post(url=url, headers=headers, data=json.dumps(data))

# 打印预测结果
print(r.json()["results"])
相关推荐
独自归家的兔12 小时前
DeepSeek-OCR 2:视觉因果流模型官方论文解读总结
ocr
DisonTangor13 小时前
智谱开源基于GLM-V编码器-解码器架构的多模态OCR模型——GLM-OCR
架构·开源·ocr
Elwin Wong15 小时前
浅析DeepSeek-OCR v1&v2
人工智能·大模型·llm·ocr·deepseek
一个无名的炼丹师1 天前
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用
python·大模型·ocr·多模态·rag
SmartBrain1 天前
OCR 模型在医疗场景的选型研究
人工智能·算法·语言模型·架构·aigc·ocr
DisonTangor2 天前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
一个处女座的程序猿2 天前
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
llm·ocr·cv·vlm
打小就很皮...2 天前
Tesseract.js OCR 中文识别
前端·react.js·ocr
五点钟科技3 天前
Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读
人工智能·llm·ocr·论文·大语言模型·deepseek·deepseek-ocr
爱吃饼干的熊猫5 天前
告别“机械扫描”:DeepSeek-OCR-2用“视觉因果流”让AI像人一样读懂文档
ocr