如何在RX 7900 XTX显卡上运行ROCm?

我们可以把ROCm看作是AMD版的CUDA。它是AMD为了让你能在它的GPU上做高性能计算和AI开发，而打造的一个开源软件平台。

下面我将详细介绍它的核心特点、它与CUDA的区别，以及在你的RX 7900 XTX上如何运行。

📝 ROCm是什么？

简单来说，ROCm（Radeon Open Compute）就是连接你的AI模型（比如Qwen）和AMD GPU硬件的软件桥梁。它提供了从底层驱动到顶层应用的完整工具包，核心包括：

编译器与编程模型 ：比如HIP（一种长得和CUDA极像的编程语言），以及编译器、代码移植工具（如HIPIFY）等。
丰富的库：针对AI优化过的数学库（如rocBLAS）、通信库（如RCCL）和深度学习库（如MIOpen）等。
调试与分析工具：性能剖析器（如rocprof）、调试器（如rocgdb）和集群管理工具（如rocm-smi）等。
生态与框架兼容：它目前已全面支持PyTorch、TensorFlow等主流AI框架，并兼容Hugging Face上的大量模型。

⚔️ ROCm vs CUDA：核心区别是什么？

这是很多人最关心的问题。我从几个关键层面做一下对比：

1. 核心定位：开放 vs 封闭

这是两者最根本的区别。

特性	AMD ROCm	NVIDIA CUDA
开放性与生态	开源，软件栈高度透明，支持多厂商硬件	闭源，生态封闭，完全与NVIDIA硬件绑定
软件栈与编译器	基于LLVM开源编译器，从代码到机器码的过程更直接	采用NVCC编译器和独有的PTX虚拟指令集+JIT编译，策略更复杂
硬件调度模型	用户空间队列（User-Mode Queue），Kernel启动延迟低，适合高频小任务	依赖内核态驱动调度，管理更严密，但任务下发开销也高一些
最小执行单元	Wavefront，大小可配置为32或64线程，灵活性更高	Warp，固定为32线程
生态成熟度	正在快速追赶，但部分小众库和历史项目兼容性仍需提升	行业金标准，生态系统极其成熟完善

2. 性能表现：后来居上

过去，ROCm在性能上一直处于追赶状态。但到了ROCm 6/7这一代，情况已经有了很大的变化，特别在推理任务上：

大幅追赶 ：有报告指出，ROCm 7较上一代在特定模型上推理性能提升高达3.5至3.8倍。
局部反超：AMD官方数据称，配合最新的Instinct显卡，ROCm 7在运行DeepSeek R1等大模型时，性能已经能够超越NVIDIA的竞品方案。

当然，这些成绩主要是在顶级的AMD Instinct计算卡上测得的。不过，对于我们所用的消费级Radeon显卡，这种进步也意味着更好的优化和下放。

💻 在你的RX 7900 XTX上运行ROCm

好消息是，你的RX 7900 XTX显卡是受ROCm官方支持的。下面是在Linux系统上安装和运行的核心步骤：

第一步：操作系统准备

ROCm对操作系统版本有严格要求，这里推荐使用Ubuntu 22.04.5 LTS 或Ubuntu 24.04.2 LTS来获得最佳兼容性。

第二步：安装流程（以Ubuntu为例）

为了避免"依赖地狱"的问题，这里推荐用AMD官方提供的包管理器脚本安装，非常方便。

下载并运行官方安装脚本：

bash 复制代码

# 1. 确保系统干净更新
sudo apt update && sudo apt dist-upgrade -y
sudo apt install wget
sudo reboot

# 2. 获取并执行AMD官方安装脚本
# 该脚本会自动添加ROCm仓库并安装基础组件和内核驱动
sudo wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.0.60002-1_all.deb 
sudo apt install ./amdgpu-install_6.0.60002-1_all.deb
sudo amdgpu-install -y --usecase=rocm

说明：这里的6.0.60002是安装器版本，它会自动帮你拉取最新的ROCm组件。--usecase=rocm参数会确保所有AI开发需要的库都被安装。

将用户添加到必要的组 ：

安装完后，把你当前的用户名加入到video和render组，这样才能有权访问GPU资源。
bash 复制代码
```
sudo usermod -a -G video,render $USER
# 重要：执行完后务必注销或重启系统，让组的变更生效！
```
重启并验证安装 ：

系统重启后，打开终端，运行以下命令：
bash 复制代码
```
rocminfo
```
如果能成功打印出一长串GPU信息，并且在最后看到你的"gfx1100"（7900 XTX的核心代号），就代表ROCm已经就绪！
（可选）配置环境变量 ：

有些AI框架需要你明确告诉它ROCm相关库的位置，你可以把它们加到~/.bashrc文件的末尾：
bash 复制代码
```
export ROCM_PATH=/opt/rocm
export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
```

第三步：运行AI框架

恭喜，基础环境已经搭建好了！你可以通过Docker或Conda安装支持ROCm的PyTorch版本来运行模型了。

Conda 安装（推荐新手）：

bash 复制代码

# 创建一个新的Conda环境并安装PyTorch ROCm版本
conda create -n rocm_env python=3.10 -y
conda activate rocm_env
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

Docker 安装（环境最干净，推荐有基础的用户） ：

直接拉取AMD官方的PyTorch Docker镜像：
bash 复制代码
```
docker pull rocm/pytorch:latest
```
然后在启动容器时加上--device=/dev/kfd --device=/dev/dri --group-add video参数，容器里的程序就能访问你的显卡了。

💡 一些提醒

Linux是首选 ：尽管ROCm也开始在Windows上提供初步支持，但要做到稳定、高性能的推理，Linux环境目前还是首选。
官方文档是最好的朋友 ：如果遇到问题，强烈建议首先查阅ROCm on Radeon官方文档。它是最权威、最及时的信息来源。