谷歌刚刚发布了新一代开源大模型Gemma 4,直接把Gemini 3的核心技术下放了。
2026年4月2日,谷歌如约献上复活节惊喜:Gemma 4 正式开源。

从手机到服务器全覆盖四种规格,
首次加入MoE架构,原生支持文本+图像+音频三模态,
上下文直接干到256K,关键还是Apache 2.0协议,完全免费可商用。
我们来拆解一下这一代到底升级了什么,对开发者意味着什么。
一、四种规格全覆盖:从手机跑到数据中心
这次Gemma 4一口气放出四个版本,两种架构,覆盖了从边缘端到数据中心的所有场景:
| 规格 | 架构 | 参数 | 适用场景 | 能否本地跑 |
|---|---|---|---|---|
| E2B | Dense | 2B 有效参数 | 手机、边缘设备 | ✅ 完全可以 |
| E4B | Dense | 4B 有效参数 | 个人PC、低端GPU | ✅ 完全可以 |
| 26B A4B | MoE | 25.2B 总参数 / 3.8B 激活 | 数据中心、中高端GPU | ⚠️ 需要GPU |
| 31B | Dense | 31B | 数据中心、高性能GPU | ❌ 需要服务器 |
这一代最大亮点:首次加入MoE架构
26B A4B 这个版本很有意思:
-
• 总参数 25.2B,但推理时只激活 3.8B 参数
-
• 推理速度接近 4B 模型,性能接近 31B 稠密模型
-
• 性价比极高,是推荐给云端部署的首选
二、架构升级:五大改进对比Gemma 3
对比上一代Gemma 3,这一代升级相当到位:
1. 上下文窗口直接翻倍:从 128K → 256K tokens
25万6千tokens是什么概念?
-
• 大约相当于 19-20 万字
-
• 一整本书都能直接塞进去
-
• 处理超长文档、长代码库更方便了
2. 原生多模态,直接支持图文音频
Gemma 3 只支持纯文本,这一代原生支持三模态输入:
-
• ✅ 文本
-
• ✅ 图像
-
• ✅ 音频
-
• 自带 ~550M 参数的视觉编码器,不需要第三方拼接
也就是说,你现在能用开源Gemma 4直接做OCR、图片问答、音频转录了,不需要组合多个模型。
3. 混合注意力机制持续优化
Gemma 从第二代就开始用「局部滑动窗口 + 全局注意力」混合设计,这一代继续优化:
-
• 局部窗口处理近处tokens,更快更省显存
-
• 最后一层一定是全局注意力,保证全局理解
-
• 为长上下文优化了KV缓存,用了Proportional RoPE
4. 内置推理能力,数学编码提升巨大
官方给的 benchmark 提升非常夸张:
| 基准测试 | Gemma 4 31B | Gemma 3 27B | 提升 |
|---|---|---|---|
| AIME 2026 (数学推理) | 89.2% | 20.8% | +68.4% |
| LiveCodeBench (编码) | 80.0% | 29.1% | +50.9% |
| Codeforces ELO | 2150 | 110 | +2040 |
有意思的是:最小的 2B E2B 在 AIME 上都能拿到 37.5%,超过了上一代 27B 的 20.8% ------ 这代进步真的是跨代的。
更详细的性能对比表:
| 基准测试 | Gemma 4 31B | Gemma 4 26B MoE | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% |
| MMMU Pro (视觉) | 76.9% | 73.8% | 52.6% | 44.2% |
5. 140+ 语言支持,多语言能力进一步提升
三、竞品横评:Gemma 4 在开源圈是什么水平?
我们放在2026年的开源大模型市场里比一比:
| 模型 | 开源 | 商用免费 | 最大上下文 | 多模态 | 编码能力 (LiveCodeBench) |
|---|---|---|---|---|---|
| Gemma 4 31B | ✅ | ✅ | 256K | ✅ 原生 | 80.0% |
| Gemma 3 27B | ✅ | ✅ | 128K | ❌ | 29.1% |
| Llama 4 70B | ✅ | ❌ 商用需要授权 | 128K | ✅ | ~72% |
| Qwen 3 72B | ✅ | ✅ | 256K | ✅ | ~78% |
| DeepSeek R1 70B | ✅ | ✅ | 128K | ✅ | 77.0% |
几个结论:
-
- 性能第一梯队:Gemma 4 31B 在开源模型里编码能力已经排到最前面了,80% LiveCodeBench 这个成绩非常吓人
-
- 协议最友好:Apache 2.0 真·免费商用,比 Meta Llama 的商业授权舒服太多,企业可以放心用
-
- 覆盖最完整:从 2B 手机端到 31B 服务器端,每个尺寸都给你准备好了,不像有些大厂只放出来大模型
四、行业影响:谷歌这条"技术下放"路线走对了
谷歌现在的策略很清晰:
-
• 闭源旗舰:Gemini 系列扛着,打 GPT、Claude
-
• 开源放货:Gemma 系列把 Gemini 成熟技术下放,抢占开发者生态
1. Agent 时代,开源模型就是基础设施
现在大家都在做多模型编排(Agentic AI):
-
• 简单查询、路由、本地推理用开源小模型
-
• 复杂任务再路由给闭源旗舰
-
• Gemma 4每个尺寸都能打,正好适合做这个基础设施
2. "小模型文艺复兴"继续,每个尺寸都要能打
Gemma 一直坚持这个路线:不是只有大模型才能打,小模型也要在自己尺寸内做到最好。
这次 2B 就能超过上代 27B 的数学成绩,就是这个思路最好的证明。
3. 中美开源模型现在是双雄并立
-
• 中国这边:Qwen(通义千问)已经做到 Hugging Face 下载量第一
-
• 美国这边:Gemma 4 扛起大旗,持续放货,开发者多了一个非常靠谱的选择
-
• 对开发者来说:选择更多了,好事
4. 硬件厂商第一天就跟进
发布当天,NVIDIA 和 AMD 都宣布了 Day 0 支持:
-
• NVIDIA:从 Jetson Orin 边缘端到 Blackwell 数据中心全平台优化
-
• AMD:ROCm 栈原生支持
生态建设速度比前代快很多。
五、本地部署指南:不同配置怎么选?
很多人关心,我想本地跑一个,应该怎么开始?
第一步:选对规格,看菜下饭
| 你的显卡 | 推荐规格 | 显存要求(4bit量化) |
|---|---|---|
| 轻薄本/无显卡 | E2B (2B) | ~2 GB |
| 游戏本 6GB | E4B (4B) | ~4 GB |
| RTX 3090/4070 10GB+ | 26B A4B (MoE) | ~8-10 GB |
| RTX 3090Ti/4090 16GB+ | 31B | ~16 GB |
💡 推荐:如果是中端显卡,直接上 26B A4B MoE ------ 总参数25B,但只激活3.8B,显存占用和4B差不多,性能强很多。
第二步:用 llama.cpp 最快起跑
llama.cpp 第一天就支持Gemma 4,还自带OpenAI兼容API,最简单:
go
# macOS
brew install llama.cpp
# Linux 从源码编译
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && mkdir build && cd build
cmake .. -DGGML_CUDA=ON && make -j
# 启动 E4B 模型(Q4_K_M 量化)
export LLAMA_CACHE="unsloth/gemma-4-E4B-GGUF"
./llama-server \
-hf unsloth/gemma-4-E4B-it-GGUF:Q4_K_M \
--port 8080
启动完之后,访问 http://localhost:8080/v1/chat/completions 就是标准OpenAI接口,直接能用。
第三步:哪里下模型?
-
• 官方原版 :Hugging Face 官方合集
-
https://huggingface.co/collections/google/gemma-4-660a69a7a09e0132ef250eec
-
• 预量化推荐:Unsloth 预量化 GGUF
第四步:Agent 框架兼容吗?
兼容,第一天就支持:
-
• ✅ OpenClaw
-
• ✅ Hermes
-
• ✅ Pi
-
• ✅ Open Code
-
• ✅ Google ADK
只要把 llama.cpp 的 API 地址填进去就行,不用改代码。
六、总结
这一代Gemma 4,可以用几个关键词总结:
✅ 全覆盖 :从手机到服务器,四个规格总有一款适合你
✅ 真升级 :256K上下文 + 原生多模态 + MoE架构,每一项都是实打实升级
✅ 最友好 :Apache 2.0 协议,真·免费商用,企业可以放心用
✅ 生态快:发布当天llama.cpp/unsloth/硬件厂商都跟上了
对于开源社区来说,谷歌这波又是诚意满满的投喂。如果你最近在找一个靠谱的开源模型,不管是端侧还是云端,都可以去试试。
参考链接
推荐阅读:
创建&使用费曼学习技能,让 AI 帮你快速学习新领域知识(实战教程)
15 分钟上线|开源克隆网站 + 一键部署,搭建你自己的产品
AI 不是在抢我的工作:Harness 正在重构软件工程|让 Agent 完成任何复杂任务
效率提升 10 倍|OpenClaw + OpenCLI 实战体验
让 OpenClaw 帮你干活(四):Proactive Agent 技能让AI眼里有活
谷歌提示工程白皮书|Google Prompt Engineering White-paper