【大模型】Gemma4在ROCm和vLLM部署

目录

Gemma4介绍

Gemma 4 是 Google DeepMind 于 2026 年 4 月推出的一系列最新、最强的开源大模型。它的定位非常明确:以极高的"参数效率"为核心,将强大的 AI 能力从云端带到你的手机、电脑等本地设备上。

  相比上一代 Gemma 3 27B 模型,Gemma 4 的性能实现了飞跃式提升 :

  • 速度与功耗:速度比前代快4倍,耗电量最多可减少60% 。
  • 数学能力:在 AIME 2026 数学竞赛测试中,准确率从 20.8% 暴涨至 89.2% 。
  • 编程能力:在 LiveCodeBench 代码测试中,得分从 29.1% 提升至 80.0% 。

  Gemma 4 是 Google 在开源大模型领域的一次重磅反击。它以 Apache 2.0 许可证开放,提供了一系列从手机到服务器的模型,主打高效、多模态和原生智能体能力,旨在让开发者能在任何地方(尤其是本地设备)构建强大、低成本且保护隐私的 AI 应用

一、Gemma 4 各版本参数对比

模型版本 总参数量 有效/激活参数量 核心定位与特点
Gemma 4-E2B 51亿 23亿 极致轻量:专为手机等移动端设备设计,内存占用可低至1.5GB以下,普通安卓手机就能完全离线运行,速度最快
Gemma 4-E4B 80亿 45亿 性能与功耗平衡:适合需要更强推理能力的复杂任务,是端侧设备的主力版本。 (本次使用的模型)
Gemma 4-26B A4B (MoE) 252亿 38亿 速度与性能的完美平衡:采用混合专家(MoE)架构,推理速度接近40亿参数的模型,但性能却能媲美310亿参数的模型,性价比极高
Gemma 4-31B (Dense) 310亿 310亿 (全激活) 性能旗舰:用310亿参数达到了开源模型性能的顶峰,在权威榜单上排名全球第三,性能可超越比自己大20倍的模型。

本文主要使用AMD显卡进行大模型Gemma4的推理部署测试。

介绍ROCm:ROCm(Radeon Open Compute)是AMD推出的开源GPU计算平台,专为高性能计算(HPC)、机器学习、深度学习等场景设计。它支持AMD的Radeon Instinct和部分消费级显卡,提供与CUDA类似的编程环境,但基于开放标准。

  • 核心组件

    1、编程模型与工具:最核心的是 HIP (异构计算接口可移植性)。HIP是一个C++运行时API,它的一大亮点是代码移植性------你可以用它编写能在AMD和NVIDIA GPU上都能运行的代码。AMD还提供了HIPIFY工具,能帮助将现有的CUDA代码自动转换为HIP代码,降低迁移成本。

    2、优化的库:ROCm提供了针对AI和高性能计算优化的各类计算库,例如:AI/ML库:如 MIOpen(深度学习库);数学库:如 rocBLAS(线性代数)、rocFFT(傅里叶变换);通信库:如 RCCL,用于多GPU通信。

    3、开发者工具:包含用于性能分析的ROCprofiler、调试的ROCgdb、系统监控的AMD SMI等一系列完整的开发和调试工具。

  • ROCm 与 CUDA 对比

特性 ROCm CUDA
厂商 AMD NVIDIA
开源
跨平台支持 部分支持 全平台
生态系统 MIOpen、rocBLAS cuDNN、cuBLAS

二、环境准备

  运行环境可以为以下两种方式:

  • 1、本地有带特定AMD Radeon显卡或AMD Instinct™ 系列专业计算卡的主机(显存需要16G+,或者内存有32G以上,Python3.12),并且安装ROCm驱动
  • 2、云端服务(带AMD显卡,ROCm=7.2.1,Python3.12,入手快)

  本文档采用AMD提供的开发者算力进行云端Gemm4的免费部署测试。

  • 1、打开AMD开发者网站https://developer.amd.com.cn/,登录账号(没有账号提前注册就可以),点击"我的权益",领取"积分免费兑换云额度",下拉跳转的网页到底部,点击"立即兑换",确认用100积分兑换100个小时的云端服务使用时间。
  • 2、点击"Launch",稍等3秒,会有"Open Notebook"的提示,点击即可使用云端的AMD显卡环境

  • 3、正确释放云端资源,避免不必要的积分浪费

  如下图,点击右上角"Profile",进入资源设置。

  点击"Destory Instance"删除刚刚创建的实例,这样才能真正避免资源浪费。

三、部署测试

  • 在jupyter中创建一个终端,输入以下命令以确认显存资源:
shell 复制代码
amd-smi

  输出结果中的Mem-Usage对应的显存数量即为当前显存占用,如26/49136MB即表示49GB显存有26MB当前被占用。

  • 确认 PyTorch 能识别 AMD GPU,在终端输入:
shell 复制代码
python -c "import torch; print('PyTorch:', torch.__version__); print('ROCm available:', torch.cuda.is_available()); print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"
  • 下载Gemma4模型
shell 复制代码
# 为了提升国内环境下的依赖下载速度,先把 pip 源切换到腾讯云镜像
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/
# 安装  魔搭  ModelScope
pip install modelscope
# 下载 Gemma4 模型到当前的models目录
modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"
# 确认 Gemma4 模型模型文件完整下载成功
ls -lh ./models/google/gemma-4-E4B-it/

  实测结果如下图所示:

  • 启动vLLM服务:vLLM 是一个本地高效推理大模型的项目,这里我们使用vLLM来测试刚才下载的模型能否正常使用。
shell 复制代码
# 需更新云环境中的 vLLM 版本
uv pip uninstall torchvision torchaudio # 经测试,在该云环境中,需卸载重新安装两个库才能正常使用
uv pip install 'vllm==0.23.0+rocm723' torchvision torchaudio 'fastapi[standard]==0.136.0' \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U
# 启动vLLM服务
vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

  实测结果如下图所示:

  如果终端出现红色框中的文字则可认为Gemma4对话服务已启动。

  如果需要关闭服务,按Ctrl+C退出。

  • 另开一个终端,输入以下命令即可进行与Gemma4模型对话:
shell 复制代码
vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

  实测结果如下图所示:

  输入问题,Gemma4能有回复,但无法获知自身未知的客观现象,如天气和时间,后续可结合工具函数进行prompt,构造一个智能体。

  如果需要关闭服务,按Ctrl+C退出。

四、后续微调

  读者可参考https://radeon.anruicloud.com/templates/257/preview的单卡微调Gemma4 E4B-it对模型进行LORA微调,加深并且掌握使用AMD对大模型进行微调的方法。

✨🎉**最后,感谢Datawhale平台提供机会,让笔者能接触到AMD在大模型部署/微调这块的一些工作。**✨🎉

五、参考资料

1 https://ailc.datawhale.cn/

2 https://radeon.anruicloud.com/templates/257/preview

3 https://developer.amd.com.cn/

相关推荐
Vergelight3 小时前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
生成论实验室3 小时前
机器人:一个自主运动的系统
人工智能·算法·语言模型·机器人·自动驾驶·agi·安全架构
Godspeed Zhao3 小时前
现代智能汽车系统——智驾SoC之框架版图
人工智能·机器学习·自动驾驶·汽车·soc
薛定猫AI3 小时前
【技术干货】OpenRouter Fusion复合API实战:多模型协同调用如何突破单模型性能瓶颈
人工智能·agi
dayuOK63073 小时前
写作卡壳怎么办?我的“5分钟启动法”
人工智能·职场和发展·自动化·新媒体运营·媒体
大山佬3 小时前
边缘 AI 部署实战:从模型量化到 MCU 推理的端到端工程方案
人工智能
XIAOYU6720133 小时前
不限物化选科的大数据管理与应用靠谱吗
人工智能
初晴融雪-快雪时晴3 小时前
产业分析:AI产业 上下游 全景分析 202606版本
人工智能·基础知识
秋名山码民3 小时前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
Data-Miner3 小时前
大语言模型+智能体AI,122页PPT详解落地应用培训!
人工智能·microsoft·语言模型