一、前言

就在 2026 年 4 月初，Google DeepMind 投下了重磅炸弹 ------ Gemma 4 正式开源。作为 Google 最新的开源旗舰，Gemma 4

不仅继承了 Gemini 3 的同源技术，更在架构上进行了史诗级更新。

其中最受关注的 Gemma 4 26B 采用了混合专家架构 (MoE)。虽然它拥有 26B 的总参数量，但在推理时仅激活约 4B

参数。这意味着：你可以在拥有 16G 显存的消费级显卡上，跑出媲美上代 70B 稠密模型的智商！

今天，我们就用目前最便捷的工具 Ollama，手把手带大家在本地环境跑通这个"性能怪兽"。

二、硬件要求与环境准备

Gemma 4 26B 虽然推理效率高，但由于模型权重仍需载入显存，对硬件有一定门槛：

显存（VRAM）：推荐 16GB 以上（如 RTX 4080/5070 或 Mac M 系列 32G 统一内存）。使用 Q4 量化版约占 14-16GB

显存。

内存（RAM）：建议 32GB 或以上。
存储：预留约 20GB 磁盘空间。
软件：Ollama 版本需 ≥ v0.5.20（旧版本不支持 Gemma 4 的新算子和 Thinking Mode）。

三、部署步骤

安装/升级 Ollama

如果你还没有安装 Ollama，直接去官网 ollama.com 下载即可。如果是老用户，请务必执行升级命令，确保支持 Gemma 4：

macOS/Linux 升级

curl -fsSL https://ollama.com/install.sh | sh

Windows 用户直接运行安装包覆盖即可

安装完成后，在终端验证版本：

ollama --version # 确保版本在 0.5.x 以上

一键拉取 Gemma 4 26B 模型

Ollama 官方库已经同步了 Gemma 4 系列。我们直接运行以下命令：

ollama run gemma4:26b

提示：如果网络较慢，可以先执行 ollama pull gemma4:26b 进行后台下载，下载完成后再运行。该版本默认使用 MoE 架构

(A4B)，在保持极高智商的同时，响应速度飞快。

运行与交互

模型加载完成后，你会看到 >>> 提示符，现在就可以开始对话了！

四、核心亮点实战（进阶玩法）

开启"思考模式 (Thinking Mode)"

Gemma 4 原生支持类似深度推理的思考逻辑。在对话时，我们可以通过 System Prompt 激活它，让模型在回答前输出 <|think|> 过程：

运行并注入系统提示词

ollama run gemma4:26b --system "你是一个深度思考助手，在回答每个问题前，请先在 <|think|> 标签内进行逻辑拆解。"

实战效果：在处理复杂的 Python 并发编程或数学竞赛题（AIME 2026）时，开启思考模式后的逻辑准确率提升了约 30%。

多模态识别（图文混排）

Gemma 4 全系原生支持多模态。如果你在终端使用，可以直接拖入图片路径：

>>> 请帮我分析这张代码架构图的功能：/Users/work/desktop/arch.png

释放 256K 超长上下文

Ollama 默认限制了上下文长度，处理长文档时需要手动调整。我们可以创建一个 Modelfile 来释放 Gemma 4 的全部潜力：

创建名为 Modelfile 的文件

FROM gemma4:26b

PARAMETER num_ctx 262144

然后执行：

ollama create gemma4-long -f Modelfile

ollama run gemma4-long

五、性能评测

在我的 RTX 4090 (24G) 环境下实测：

推理速度：约 65 tokens/s（由于 MoE 仅激活 4B 参数，体感极快）。
显存占用：启动后稳定在 15.8GB 左右。
智力表现：在 MMLU Pro 测试中达到 82.6%，完美替代了之前的 Llama 3。

六、总结

Google Gemma 4 26B 的出现，正式宣告了本地 MoE 模型时代的到来。通过

Ollama，我们不仅能实现分钟级的部署，更能深度调用它的多模态和思考模式。

避坑指南：

若出现 model not found，请确认 Ollama 已升级到最新版。
显存不足 12G 的同学，建议尝试 ollama run gemma4:e4b（这是 4B 的 Edge 优化版）。

如果你在部署过程中遇到任何问题，欢迎在评论区留言讨论！

点赞、收藏、关注不迷路，带你解锁更多 AI 黑科技！

📝 相关资源链接

Ollama 官网：https://ollama.com
Gemma 4 模型主页：https://ai.google.dev/gemma
HuggingFace 地址：google/gemma-4-26b-it

Ollama 本地部署 Google Gemma 4 26B MoE 旗舰模型

macOS/Linux 升级

Windows 用户直接运行安装包覆盖即可

运行并注入系统提示词

创建名为 Modelfile 的文件