第23章 ROCm虚拟化栈Docker化实战

本章是本专栏的核心实战章节,围绕ROCm虚拟化栈的Docker化展开,覆盖驱动/运行时要求、GPU设备映射、镜像选择、Compose编排、性能测试与排障。

23.1 ROCm容器化基础

23.1.1 ROCm组件关系

text 复制代码
ROCm栈概览:

用户空间:
  - ROCm Runtime (HIP, HSA)
  - 数学库 (rocBLAS, MIOpen, rocFFT)
  - 工具链 (rocminfo, rocm-smi)

内核空间:
  - amdgpu驱动
  - /dev/kfd  (Kernel Fusion Driver)
  - /dev/dri  (DRM设备)

23.1.2 容器可见的关键设备

text 复制代码
容器需要的关键设备:
- /dev/kfd  : ROCm计算核心
- /dev/dri  : DRM GPU设备
- /dev/dri/renderD* : 用户态渲染设备

23.2 主机环境要求

23.2.1 驱动与内核

text 复制代码
要求:
✅ 主机已安装ROCm驱动(amdgpu + ROCm runtime)
✅ 内核支持KFD和DRM
✅ /dev/kfd 和 /dev/dri 存在
bash 复制代码
# 检查设备节点
ls -l /dev/kfd /dev/dri

# 查看GPU信息
rocminfo | head -n 30

# 查看驱动状态
rocm-smi

23.2.2 用户组权限

bash 复制代码
# 必要的组权限
# /dev/kfd 和 /dev/dri 通常属于 video/render 组

id
# 示例输出:uid=1000 user gid=1000 user groups=...,video,render

# 加入组(需要重新登录)
sudo usermod -aG video,render $USER

23.3 ROCm镜像选择

23.3.1 官方镜像

text 复制代码
常用镜像:
- rocm/pytorch:latest
- rocm/tensorflow:latest
- rocm/dev-ubuntu-22.04
- rocm/rocm-terminal

23.3.2 镜像选择建议

text 复制代码
开发环境:rocm/dev-ubuntu-22.04
深度学习:rocm/pytorch 或 rocm/tensorflow
诊断工具:rocm/rocm-terminal

23.4 运行ROCm容器

23.4.1 基础运行命令

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/rocm-terminal

23.4.2 运行HIP程序

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/dev-ubuntu-22.04 \
  bash -lc "rocminfo | head -n 20"

23.4.3 运行PyTorch

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/pytorch:latest \
  python - <<'PY'
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
PY

注意:ROCm环境中torch.cuda仍用于GPU访问,但底层是HIP。

23.5 Docker Compose编排

yaml 复制代码
version: '3.8'
services:
  rocm-dev:
    image: rocm/dev-ubuntu-22.04
    devices:
      - /dev/kfd
      - /dev/dri
    group_add:
      - video
      - render
    volumes:
      - ./workspace:/workspace
    working_dir: /workspace
    command: bash
bash 复制代码
# 启动容器
# docker compose up -d
# 进入容器
# docker compose exec rocm-dev bash

23.6 设备映射与容器权限

23.6.1 常见错误与解决

text 复制代码
错误1:rocminfo报错无设备
→ 检查 /dev/kfd /dev/dri 是否映射

错误2:Permission denied
→ 检查容器是否加入video/render组
→ 检查宿主机用户组权限

23.6.2 运行时安全配置

bash 复制代码
# 仅映射需要的设备
--device=/dev/kfd --device=/dev/dri

# 不推荐使用--privileged

23.7 性能测试与验证

23.7.1 基础性能测试

bash 复制代码
# 运行rocminfo确认设备
rocminfo

# rocm-smi查看利用率
rocm-smi

23.7.2 PyTorch性能测试

python 复制代码
# benchmark.py
import torch
import time

x = torch.randn(4096, 4096, device='cuda')
y = torch.randn(4096, 4096, device='cuda')

# 预热
for _ in range(5):
    z = x @ y

# 计时
start = time.time()
for _ in range(20):
    z = x @ y

torch.cuda.synchronize()
print("Elapsed:", time.time() - start)
bash 复制代码
# 运行
python benchmark.py

23.7.3 ROCm-SMI监控

bash 复制代码
# 持续监控
ocm-smi -a -d 1

23.8 常见问题排查

23.8.1 容器内无法访问GPU

text 复制代码
检查点:
1. /dev/kfd /dev/dri 是否映射
2. video/render组是否添加
3. 主机rocminfo是否正常
4. 容器内rocminfo是否正常

23.8.2 版本不匹配

text 复制代码
镜像ROCm版本需与宿主机驱动兼容。
建议使用与主机ROCm版本匹配的镜像tag。

23.8.3 性能异常

text 复制代码
可能原因:
- NUMA绑定不合理
- PCIe链路瓶颈
- 频率被限制(rocm-smi检查)

23.9 生产最佳实践

text 复制代码
✅ 镜像版本与主机驱动匹配
✅ 使用专用用户运行容器
✅ 仅映射必要设备
✅ 监控GPU温度与功耗
✅ 结合prometheus采集指标

23.10 小结

本章完成了ROCm虚拟化栈Docker化的核心流程:

✅ 主机驱动与设备检查

✅ GPU设备映射与权限配置

✅ ROCm官方镜像选择

✅ Compose编排方案

✅ 性能测试与问题排查

下一步

在第24章中,我们将进入Docker高级特性与安全实践:

  • 容器安全与权限隔离
  • 镜像扫描与签名
  • Rootless模式

本章思考题

  1. 为什么ROCm容器需要映射/dev/kfd/dev/dri
  2. video/render组权限为什么重要?
  3. 镜像版本与宿主机驱动不匹配会带来什么问题?
  4. 如何在容器内验证GPU可用性?
  5. 如何对ROCm容器进行性能基准测试?

相关资源

相关推荐
炽天使32811 分钟前
龙虾尝鲜记(3)——装ubuntu(续)
linux·运维·ubuntu
永远不会出bug13 分钟前
调整nginx代理 并获取到访问你网站的用户本机 IP
运维·tcp/ip·nginx
眷蓝天15 分钟前
Keepalived高可用负载均衡
运维·负载均衡
运维小欣25 分钟前
26年可观测性平台选型指南
运维
劳埃德福杰28 分钟前
Windows电脑安装双系统如何切换默认开机系统
运维·windows·电脑
宁波阿成32 分钟前
OpenClaw Docker 完整部署与排障总文档
运维·docker·ai·容器·openclaw
小王要努力上岸36 分钟前
LVS DR 模式(Direct Routing)
linux·运维·lvs
gaize121339 分钟前
个人博客 / 官网云服务器|简单好用不贵
运维·服务器
一直都在57239 分钟前
Docker 从入门到实战系列(四):镜像 / 容器导入导出、容器互联与 SpringBoot 微服务打包
spring boot·docker·微服务
智能工业品检测-奇妙智能1 小时前
docker如何进行离线部署springboot项目
spring boot·docker·容器