本章是本专栏的核心实战章节,围绕ROCm虚拟化栈的Docker化展开,覆盖驱动/运行时要求、GPU设备映射、镜像选择、Compose编排、性能测试与排障。
23.1 ROCm容器化基础
23.1.1 ROCm组件关系
text
ROCm栈概览:
用户空间:
- ROCm Runtime (HIP, HSA)
- 数学库 (rocBLAS, MIOpen, rocFFT)
- 工具链 (rocminfo, rocm-smi)
内核空间:
- amdgpu驱动
- /dev/kfd (Kernel Fusion Driver)
- /dev/dri (DRM设备)
23.1.2 容器可见的关键设备
text
容器需要的关键设备:
- /dev/kfd : ROCm计算核心
- /dev/dri : DRM GPU设备
- /dev/dri/renderD* : 用户态渲染设备
23.2 主机环境要求
23.2.1 驱动与内核
text
要求:
✅ 主机已安装ROCm驱动(amdgpu + ROCm runtime)
✅ 内核支持KFD和DRM
✅ /dev/kfd 和 /dev/dri 存在
bash
# 检查设备节点
ls -l /dev/kfd /dev/dri
# 查看GPU信息
rocminfo | head -n 30
# 查看驱动状态
rocm-smi
23.2.2 用户组权限
bash
# 必要的组权限
# /dev/kfd 和 /dev/dri 通常属于 video/render 组
id
# 示例输出:uid=1000 user gid=1000 user groups=...,video,render
# 加入组(需要重新登录)
sudo usermod -aG video,render $USER
23.3 ROCm镜像选择
23.3.1 官方镜像
text
常用镜像:
- rocm/pytorch:latest
- rocm/tensorflow:latest
- rocm/dev-ubuntu-22.04
- rocm/rocm-terminal
23.3.2 镜像选择建议
text
开发环境:rocm/dev-ubuntu-22.04
深度学习:rocm/pytorch 或 rocm/tensorflow
诊断工具:rocm/rocm-terminal
23.4 运行ROCm容器
23.4.1 基础运行命令
bash
docker run -it --rm \
--device=/dev/kfd \
--device=/dev/dri \
--group-add video \
--group-add render \
rocm/rocm-terminal
23.4.2 运行HIP程序
bash
docker run -it --rm \
--device=/dev/kfd \
--device=/dev/dri \
--group-add video \
--group-add render \
rocm/dev-ubuntu-22.04 \
bash -lc "rocminfo | head -n 20"
23.4.3 运行PyTorch
bash
docker run -it --rm \
--device=/dev/kfd \
--device=/dev/dri \
--group-add video \
--group-add render \
rocm/pytorch:latest \
python - <<'PY'
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
PY
注意:ROCm环境中
torch.cuda仍用于GPU访问,但底层是HIP。
23.5 Docker Compose编排
yaml
version: '3.8'
services:
rocm-dev:
image: rocm/dev-ubuntu-22.04
devices:
- /dev/kfd
- /dev/dri
group_add:
- video
- render
volumes:
- ./workspace:/workspace
working_dir: /workspace
command: bash
bash
# 启动容器
# docker compose up -d
# 进入容器
# docker compose exec rocm-dev bash
23.6 设备映射与容器权限
23.6.1 常见错误与解决
text
错误1:rocminfo报错无设备
→ 检查 /dev/kfd /dev/dri 是否映射
错误2:Permission denied
→ 检查容器是否加入video/render组
→ 检查宿主机用户组权限
23.6.2 运行时安全配置
bash
# 仅映射需要的设备
--device=/dev/kfd --device=/dev/dri
# 不推荐使用--privileged
23.7 性能测试与验证
23.7.1 基础性能测试
bash
# 运行rocminfo确认设备
rocminfo
# rocm-smi查看利用率
rocm-smi
23.7.2 PyTorch性能测试
python
# benchmark.py
import torch
import time
x = torch.randn(4096, 4096, device='cuda')
y = torch.randn(4096, 4096, device='cuda')
# 预热
for _ in range(5):
z = x @ y
# 计时
start = time.time()
for _ in range(20):
z = x @ y
torch.cuda.synchronize()
print("Elapsed:", time.time() - start)
bash
# 运行
python benchmark.py
23.7.3 ROCm-SMI监控
bash
# 持续监控
ocm-smi -a -d 1
23.8 常见问题排查
23.8.1 容器内无法访问GPU
text
检查点:
1. /dev/kfd /dev/dri 是否映射
2. video/render组是否添加
3. 主机rocminfo是否正常
4. 容器内rocminfo是否正常
23.8.2 版本不匹配
text
镜像ROCm版本需与宿主机驱动兼容。
建议使用与主机ROCm版本匹配的镜像tag。
23.8.3 性能异常
text
可能原因:
- NUMA绑定不合理
- PCIe链路瓶颈
- 频率被限制(rocm-smi检查)
23.9 生产最佳实践
text
✅ 镜像版本与主机驱动匹配
✅ 使用专用用户运行容器
✅ 仅映射必要设备
✅ 监控GPU温度与功耗
✅ 结合prometheus采集指标
23.10 小结
本章完成了ROCm虚拟化栈Docker化的核心流程:
✅ 主机驱动与设备检查
✅ GPU设备映射与权限配置
✅ ROCm官方镜像选择
✅ Compose编排方案
✅ 性能测试与问题排查
下一步
在第24章中,我们将进入Docker高级特性与安全实践:
- 容器安全与权限隔离
- 镜像扫描与签名
- Rootless模式
本章思考题:
- 为什么ROCm容器需要映射
/dev/kfd和/dev/dri? video/render组权限为什么重要?- 镜像版本与宿主机驱动不匹配会带来什么问题?
- 如何在容器内验证GPU可用性?
- 如何对ROCm容器进行性能基准测试?
相关资源: