第23章 ROCm虚拟化栈Docker化实战

本章是本专栏的核心实战章节,围绕ROCm虚拟化栈的Docker化展开,覆盖驱动/运行时要求、GPU设备映射、镜像选择、Compose编排、性能测试与排障。

23.1 ROCm容器化基础

23.1.1 ROCm组件关系

text 复制代码
ROCm栈概览:

用户空间:
  - ROCm Runtime (HIP, HSA)
  - 数学库 (rocBLAS, MIOpen, rocFFT)
  - 工具链 (rocminfo, rocm-smi)

内核空间:
  - amdgpu驱动
  - /dev/kfd  (Kernel Fusion Driver)
  - /dev/dri  (DRM设备)

23.1.2 容器可见的关键设备

text 复制代码
容器需要的关键设备:
- /dev/kfd  : ROCm计算核心
- /dev/dri  : DRM GPU设备
- /dev/dri/renderD* : 用户态渲染设备

23.2 主机环境要求

23.2.1 驱动与内核

text 复制代码
要求:
✅ 主机已安装ROCm驱动(amdgpu + ROCm runtime)
✅ 内核支持KFD和DRM
✅ /dev/kfd 和 /dev/dri 存在
bash 复制代码
# 检查设备节点
ls -l /dev/kfd /dev/dri

# 查看GPU信息
rocminfo | head -n 30

# 查看驱动状态
rocm-smi

23.2.2 用户组权限

bash 复制代码
# 必要的组权限
# /dev/kfd 和 /dev/dri 通常属于 video/render 组

id
# 示例输出:uid=1000 user gid=1000 user groups=...,video,render

# 加入组(需要重新登录)
sudo usermod -aG video,render $USER

23.3 ROCm镜像选择

23.3.1 官方镜像

text 复制代码
常用镜像:
- rocm/pytorch:latest
- rocm/tensorflow:latest
- rocm/dev-ubuntu-22.04
- rocm/rocm-terminal

23.3.2 镜像选择建议

text 复制代码
开发环境:rocm/dev-ubuntu-22.04
深度学习:rocm/pytorch 或 rocm/tensorflow
诊断工具:rocm/rocm-terminal

23.4 运行ROCm容器

23.4.1 基础运行命令

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/rocm-terminal

23.4.2 运行HIP程序

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/dev-ubuntu-22.04 \
  bash -lc "rocminfo | head -n 20"

23.4.3 运行PyTorch

bash 复制代码
docker run -it --rm \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add video \
  --group-add render \
  rocm/pytorch:latest \
  python - <<'PY'
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
PY

注意:ROCm环境中torch.cuda仍用于GPU访问,但底层是HIP。

23.5 Docker Compose编排

yaml 复制代码
version: '3.8'
services:
  rocm-dev:
    image: rocm/dev-ubuntu-22.04
    devices:
      - /dev/kfd
      - /dev/dri
    group_add:
      - video
      - render
    volumes:
      - ./workspace:/workspace
    working_dir: /workspace
    command: bash
bash 复制代码
# 启动容器
# docker compose up -d
# 进入容器
# docker compose exec rocm-dev bash

23.6 设备映射与容器权限

23.6.1 常见错误与解决

text 复制代码
错误1:rocminfo报错无设备
→ 检查 /dev/kfd /dev/dri 是否映射

错误2:Permission denied
→ 检查容器是否加入video/render组
→ 检查宿主机用户组权限

23.6.2 运行时安全配置

bash 复制代码
# 仅映射需要的设备
--device=/dev/kfd --device=/dev/dri

# 不推荐使用--privileged

23.7 性能测试与验证

23.7.1 基础性能测试

bash 复制代码
# 运行rocminfo确认设备
rocminfo

# rocm-smi查看利用率
rocm-smi

23.7.2 PyTorch性能测试

python 复制代码
# benchmark.py
import torch
import time

x = torch.randn(4096, 4096, device='cuda')
y = torch.randn(4096, 4096, device='cuda')

# 预热
for _ in range(5):
    z = x @ y

# 计时
start = time.time()
for _ in range(20):
    z = x @ y

torch.cuda.synchronize()
print("Elapsed:", time.time() - start)
bash 复制代码
# 运行
python benchmark.py

23.7.3 ROCm-SMI监控

bash 复制代码
# 持续监控
ocm-smi -a -d 1

23.8 常见问题排查

23.8.1 容器内无法访问GPU

text 复制代码
检查点:
1. /dev/kfd /dev/dri 是否映射
2. video/render组是否添加
3. 主机rocminfo是否正常
4. 容器内rocminfo是否正常

23.8.2 版本不匹配

text 复制代码
镜像ROCm版本需与宿主机驱动兼容。
建议使用与主机ROCm版本匹配的镜像tag。

23.8.3 性能异常

text 复制代码
可能原因:
- NUMA绑定不合理
- PCIe链路瓶颈
- 频率被限制(rocm-smi检查)

23.9 生产最佳实践

text 复制代码
✅ 镜像版本与主机驱动匹配
✅ 使用专用用户运行容器
✅ 仅映射必要设备
✅ 监控GPU温度与功耗
✅ 结合prometheus采集指标

23.10 小结

本章完成了ROCm虚拟化栈Docker化的核心流程:

✅ 主机驱动与设备检查

✅ GPU设备映射与权限配置

✅ ROCm官方镜像选择

✅ Compose编排方案

✅ 性能测试与问题排查

下一步

在第24章中,我们将进入Docker高级特性与安全实践:

  • 容器安全与权限隔离
  • 镜像扫描与签名
  • Rootless模式

本章思考题

  1. 为什么ROCm容器需要映射/dev/kfd/dev/dri
  2. video/render组权限为什么重要?
  3. 镜像版本与宿主机驱动不匹配会带来什么问题?
  4. 如何在容器内验证GPU可用性?
  5. 如何对ROCm容器进行性能基准测试?

相关资源

相关推荐
阿里云大数据AI技术9 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
辉的技术笔记11 小时前
Dify 自部署为什么跑不动?6 层瓶颈诊断法教你定位
docker
SkyWalking中文站1 天前
认识 Horizon UI · 6/17:Trace 探索器
运维·监控·自动化运维
程序员老赵1 天前
Docker 部署 Redmine:老牌开源项目管理部署实测记录
docker·开源·团队管理
程序员老赵1 天前
服务器文件不想 SFTP 上传?Docker 跑个 File Browser,浏览器就能管理
服务器·docker·开源
火车叼位1 天前
写给初级开发者:SSL、SSH、HTTPS 与证书体系全解析
运维
小猿姐2 天前
唯品会大规模数据库云原生实践:基于 KubeBlocks 管理数千实例的统一运维之路
运维·elasticsearch·云原生
SkyWalking中文站2 天前
认识 Horizon UI · 5/17:3D 基础设施地图
运维·监控·自动化运维
SkyWalking中文站3 天前
认识 Horizon UI · 1/17:SkyWalking 新一代可观测性控制台
运维·前端·监控
雪梨酱QAQ3 天前
Kubeneters HA Cluster部署
运维