在 Linux / macOS 下使用 Docker 快速部署 PaddlePaddle + 运行 PaddleOCR 表格 PDF 解析示例

适用人群 :想快速体验 PaddlePaddle + PaddleOCR 的开发者
系统支持 :Linux(CPU/GPU)、macOS(仅 CPU)
版本说明:基于 PaddlePaddle 3.2.0 + PaddleOCR v3.2.0


🧰 一、环境准备

在开始之前,请确保你的开发环境满足以下条件:

  • 已安装 Docker 20.x 及以上版本
  • Linux 用户(GPU 版本)
  • macOS 用户
    • 使用 Docker Desktop for Mac(仅支持 CPU)

💡 提示:如果你不确定是否已安装 NVIDIA Container Toolkit,可在终端执行 docker run --gpus all nvidia/cuda:11.8-base-ubuntu22.04 nvidia-smi。如果能正常输出显卡信息,则说明配置成功。


📦 二、拉取 PaddlePaddle Docker 镜像

PaddlePaddle 官方提供了多个预构建的 Docker 镜像,包含 CPU 和 GPU 版本。我们推荐使用百度云镜像源(国内下载更快):

✅ 1. CPU 版(适用于 macOS / 无 GPU 的 Linux)

bash 复制代码
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0

✅ 2. GPU 版(仅限 Linux)

⚠️ 请确保你已正确安装 NVIDIA Container Toolkit!

推荐:CUDA 11.8(兼容性最好)
bash 复制代码
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0-gpu-cuda11.8-cudnn8.9
其他选项(适用于较新驱动)
bash 复制代码
# CUDA 12.6
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0-gpu-cuda12.6-cudnn9.5

# CUDA 12.9
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0-gpu-cuda12.9-cudnn9.9

🔗 镜像详情参考:PaddlePaddle Docker 安装文档(macOS)


▶️ 三、启动 Docker 容器

🖥️ CPU 版启动命令(Linux / macOS)

bash 复制代码
docker run --name paddle_docker \
  -itd \
  -v $PWD:/paddle \
  -p 8038:8038 \
  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0 \
  /bin/bash

🎮 GPU 版启动命令(仅 Linux)

bash 复制代码
docker run --name paddle_docker \
  --gpus all \
  -itd \
  -v $PWD:/paddle \
  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0-gpu-cuda11.8-cudnn8.9 \
  /bin/bash

参数说明

参数 说明
--name paddle_docker 指定容器名称,方便后续操作
-itd 后台运行,并支持交互式终端
-v $PWD:/paddle 将当前主机目录挂载到容器 /paddle 路径
-p 8038:8038 端口映射(如需 Web 服务可保留)
--gpus all 启用所有 GPU(仅 GPU 版需要)

🔍 四、进入容器

bash 复制代码
docker exec -it paddle_docker /bin/bash

进入后,你将看到一个已预装 Python 3 + PaddlePaddle 3.2.0 的干净环境。

验证 Paddle 是否正常:

bash 复制代码
python -c "import paddle; print(paddle.__version__)"

📂 五、获取 PaddleOCR 表格 PDF 示例项目

项目地址:https://gitee.com/michah/paddleocr_table_pdf_demo

在容器内执行:

bash 复制代码
cd /paddle
git clone https://gitee.com/michah/paddleocr_table_pdf_demo
cd paddleocr_table_pdf_demo

📦 六、安装依赖

该项目未提供 requirements.txt,但根据 README,我们需要手动安装以下依赖:

bash 复制代码
pip install paddleocr==3.2.0 PyMuPDF Pillow reportlab tqdm opencv-python numpy

💡 注意:PaddleOCR 3.2.0 与 PaddlePaddle 3.2.0 版本需严格匹配,避免兼容问题。


▶️ 七、运行示例程序

bash 复制代码
python demo.py

该脚本会:

  1. 读取项目中的 page_6.png 图像(含表格)
  2. 使用 PaddleOCR 的表格识别能力解析结构
  3. 输出结构化 JSON 并生成美观 PDF(page_5_pred_html_fixed.pdf

你可以在 /paddle/paddleocr_table_pdf_demo 目录下查看结果文件。


❓ 八、常见问题解答

Q1:如何确认 GPU 是否生效?

在容器内执行:

python 复制代码
python -c "import paddle; print(paddle.device.get_device())"
  • 输出 gpu:0 表示 GPU 正常
  • 输出 cpu 表示仅使用 CPU

Q2:macOS 能用 GPU 吗?

不能。Docker Desktop for Mac 不支持 GPU 加速,只能使用 CPU 版本。如需 GPU 推理,请使用 Linux 主机。

Q3:中文模型下载太慢怎么办?

PaddleOCR 会自动下载中文检测/识别模型。若网络较慢,可提前设置缓存目录:

bash 复制代码
export PADDLE_HOME=/paddle/.paddle
mkdir -p $PADDLE_HOME

模型将缓存在该路径下,避免重复下载。


✅ 总结

通过 Docker,我们实现了:

  • 环境隔离:无需污染本地 Python 环境
  • 一键部署:官方镜像已预装 PaddlePaddle
  • 跨平台支持:Linux(CPU/GPU)、macOS(CPU)均可运行
  • 快速验证:5 分钟内跑通 PaddleOCR 表格识别全流程

📌 项目完整流程:图像表格识别 → 结构化 JSON → 高保真 PDF 导出


🔗 参考资料


欢迎点赞、收藏、关注!

如有问题,欢迎在评论区交流 👇

相关推荐
Mintimate1 小时前
WorkBuddy 上手: 让脚本项目 Homebrew CN 变成会排障的 Agent
macos·边缘计算·agent
tntxia20 小时前
linux curl命令详解_curl详解
linux
扛枪的书生1 天前
Linux 网络管理器用法速查
linux
顺风尿一寸1 天前
Java Socket 内核之旅:从 SocketChannel.read() 到 tcp_recvmsg 与 epoll 的完整调用链路
linux
lichenyang4531 天前
Docker 学习笔记(五):Docker Compose,用一个 YAML 启动前端、后端和 MongoDB
docker
lichenyang4531 天前
Docker 学习笔记(四):Dockerfile,把项目打成自己的镜像
docker·容器
lichenyang4531 天前
Docker 学习笔记(三):Docker 网络、bridge、子网和容器互通
docker·容器
lichenyang4531 天前
Docker 学习笔记(二):docker run 的参数到底在控制什么?
docker·容器
XIAOHEZIcode1 天前
Ubuntu 终端美化全栈指南:Bash 到 Kitty 踩坑实录
linux·ubuntu·命令行
fthux1 天前
如果你用 Mac,那你可能需要 Noti Shift
macos·开源·github