运行 Gemma4 大模型TASK01

关键命令

shell 复制代码

amd-smi
python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/
pip install modelscope
modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"
ls -lh ./models/google/gemma-4-E4B-it/
uv pip uninstall torchvision # 经测试，在该云环境中，需卸载重新安装这个库才能正常使用
uv pip install vllm torchvision \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U
vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

# 可以降低最大上下文长度
vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

Gemma 4 是什么

Google(旗下 DeepMind 团队)在 2026 年推出的一个开源大模型家族。它和 Google 那款闭源、收费的 Gemini 3 用的是同一套底层技术,所以你可以把它看成 Gemini 3 的"开源师弟"------区别在于,Gemma 把模型权重公开放了出来,而且用的是商业友好的 Apache 2.0 许可 ,意味着不光能免费下载,还能免费商用。

"开源"这一点对本次教程特别关键 :任何人都能免费下载模型文件、装到自己环境里运行、甚至拿自己的数据去改造它 (也就是任务四要做的微调)。而闭源模型(比如 GPT、Gemini),你只能隔着网络调用,看不到也改不动里面的东西。顺带一提,Gemma 系列至今已被下载超过 4 亿次、衍生出 10 万多个模型 , 是开源圈里用得最广的家族之一。

Gemma 4 有好几种大小,从能塞进手机、树莓派的,到要用服务器才跑得动的都有,一共四款:E2B、E4B、26B 和 31B。本次教程用的是其中较小的 E4B :体积小到单张显卡就能跑,又足够聪明,正好适合上手学习。(型号里的"E"是"有效参数"的意思,E4B 大致是 40 亿参数这个量级。)

别看个头小,Gemma 4 这一代主打的就是" 单位参数下的高智能 "------按 Google 官方说法,它家最大的 31B 模型在权威的开放模型排行榜上能排进全球前三,甚至打赢比它大 20 倍的对手。能力上,它会做多步推理、能写代码、能看图、能听音频、一次能读进很长的内容,还支持 140 多种语言。

本次教程为什么选它? 开源 (能下能改、还能免费商用)、够小 (单卡跑得动)、够强。

更多信息详见谷歌官方对Gemma 4 的介绍： https://mp.weixin.qq.com/s/9ocQ4g2v8zmKuIMcle3sDA

这几个词在任务三里会反复出现，搞懂了，后面就不犯迷糊。

1️⃣ 参数 / 权重 / "多少 B"

参数（Parameter） ：模型内部的数字，就像模型的大脑神经元的"记忆"。每个参数都是一个固定的数，模型就是靠这些数进行运算，算出答案。
权重（Weight） ：参数的另一种叫法，完全等价。
"多少 B" ：B = 10 亿。模型名字里的 4B、15B，就是模型里参数的数量。例如，4B 模型有 40 亿个参数。
这几个词在任务三里会反复出现，搞懂了，后面就不犯迷糊。

1️⃣ 参数 / 权重 / "多少 B"

参数（Parameter） ：模型内部的数字，就像模型的大脑神经元的"记忆"。每个参数都是一个固定的数，模型就是靠这些数进行运算，算出答案。
权重（Weight） ：参数的另一种叫法，完全等价。
"多少 B" ：B = 10 亿。模型名字里的 4B、15B，就是模型里参数的数量。例如，4B 模型有 40 亿个参数。
模型文件 ：你下载的 model.safetensors 文件里存的就是这些参数。文件大（比如 15G）是正常的，因为存储结构和精度决定了文件大小。
💡一句话理解：参数 = 模型的"本体"，模型会不会聊天、聪不聪明，全在这堆数字里。：你下载的 model.safetensors 文件里存的就是这些参数。文件大（比如 15G）是正常的，因为存储结构和精度决定了文件大小。