【Datawhale学习笔记】使用AMD GPU15分钟部署&运行Gemma4大模型

Gemma4模型

介绍

Gemma 4 是 Google DeepMind 于 2026 年 4 月 3 日发布的新一代开源多模态大模型家族，基于 Gemini 技术，主打 "强推理 + 全场景部署 + Apache 2.0 免费商用"，端侧到数据中心全覆盖。

优点

Gemma 4 有好几种大小,从能塞进手机、树莓派的,到要用服务器才跑得动的都有

规格

实践部分

查看AMD GPU信息

bash 复制代码

python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

输出结果

复制代码

PyTorch: 2.10.0+git8514f05
ROCm available: True
Device: AMD Radeon Graphics

查看AMD显卡具体信息

命令如下

复制代码

amd-smi

显示结果

设置国内源

bash 复制代码

pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

安装Modelscope

bash 复制代码

pip install modelscope

下载模型

bash 复制代码

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

启动 vLLM 服务

bash 复制代码

uv pip uninstall torchvision # 经测试，在该云环境中，需卸载重新安装这个库才能正常使用
uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

启动后的界面：

Tips：这边如果遇到显存不足,可以降低最大上下文长度后再启动，命令如下：

bash 复制代码

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it --max-model-len 8192

对话测试

新开一个新的终端，复制如下命令：

bash 复制代码

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

出现这个界面的时候就可以开始和大模型进行对话

我们输入如下提示词：

复制代码

你是谁，你能做什么`

运行结果

对话完成后按两下Ctrl+C就可以退出回话了

总结

拉敲了一堆东西，那么我们到底这一节做了什么事情了，总结为以下四步：

第一步：先检查显卡能不能用。

第二步：把模型下载到本地。

第三步：用 vLLM 把模型启动成一个服务。

第四步：另开一个终端连上去对话。