Google 开源大模型 Gemma4 怎么选，本地跑的话需要什么条件？

我觉得这 Gemma 4 并没有表现得特别优秀，但它大概率是这个系列到目前为止，发布最全面和友好的一次了，虽然也是很快就被安全破解的一次。

因为 Gemma 4 这次发布的 E2B、E4B、26B A4B MoE 和 31B Dense ，可以说是覆盖小杯到超大杯全部范围，而最重要的是，这次改用了 Apache 2.0 许可，这可是首次采用 Apache 2.0，最大的惊喜。

但是真要评价，核心还是在小模型，E2B/E4B 在结构化输出、对话、轻 agent 场景里目前反馈都还不错，比如在 6G 显存上，E2B 可以做到比 qwen 更快，个人感觉体验也更好一点，结构化输出也不错。

比如官方数据上： E2B 在部分设备上可以做到 1.5GB 内存运行，处理 4000 输入 token、跨 2 个 skill 的 agent 流程可在 3 秒内完成等，同时 Google AI Edge Gallery 直接在 iOS 和 Android 上提供了Gemma 4 支持，这个体验就很不错。

而在 26B 和 31B 上，如果当某些排行上看就很有趣了，26B 可以作为 gemini-3.1-flash-lite 的平替，而 31B 可以平替 Gemini 2.5 pro ：

当然，我个人感觉 26B A4B 整体的速度和质量平衡会更实用，因为 26B A4B 这个形态相对比较平衡，总参数 25.2B、推理时只激活 3.8B，比 31B Dense 更快、但质量却相对接近，例如在多个公开 benchmark 上，Gemma 31B 相比 26B 表现接近：

在 Arena AI text leaderboard 上，31B 的 Elo 高出约 10 分左右
在数学基准（如 AIME）中，提升约 1%
在代码生成（LiveCodeBench）上，提升约 2%～3%
在高难推理（GPQA Diamond）中，提升约 1%～2%

可以看出来，26B A4B 靠相对少量的激活参数，就让效果逼近 31B Dense 的表现，可以说是最有性价比的。

也有人测试 26B A4B 和 Qwen 3.5 35B A3B 速度接近，比如 Gemma 26b a4b 在 Mac Studio M1 Ultra 上的速度和 Qwen3.5 35b a3b 相同（在 20k 上下文长度下，大约 1000pp，60tg，llama.cpp）

约 ~1000 prefill / ~60 tok/s @ 20k context ，而在独立 agentic coding 对比里，26B A4B 的生成速度约 ~135 tok/s，和 Qwen 3.5 35B A3B 的 ~136 tok/s 接近，但主观评价上看，26B A4B 代码质量评价偏弱。

这也是我个人相对不推荐 31B Dense 的原因，生成还是慢了不少，长思考却又不能稳定，吃上下文内存也比较高，相对起来速度和稳定还不如 Qwen 3.5-27B，幻觉相对更大。

另外，这里就不得不提 gemma4 一开始存在的问题：上下文占用资源过多，刚出来那会没办法像 qwens 那样加载更长的上下文，LM Studio 中的缓存量化会有问题，导致模型不稳定并经常陷入循环。

后来 LM Studio 更新（ llama.cpp 2.11.0 ）修复了，可以实现 32K 上下文（26B 4AB Q5_K_M）。

当然，最重要的是，Gemma-4-31B 模型才发布没一会就有了越狱版本，安全限制被完全移除，而且 Gemma-4-31B-JANG_4M-CRACK 这个破解模型已经公开发布在 Hugging Face。

根据 Apache 2.0 许可来看，这个破解模型相对还是合法？毕竟 2.0 许可支持修改和再分发?

最后，目前大多数好评还是集中在小模型上，只能说这个领域要有一个可用的实在不容易，特别是 E4B 在结构化抽取上的可用性，比如有用户把 E4B fine-tune 到监管文档 JSON 抽取任务上，基础模型在零微调下就能做到 100% JSON validity、75% 的文档类型准确率，微调后提升到 94%，幻觉义务项从 1.25/doc 降到 0.59/doc，这个底子还是可以的。

github.com/spriyads-va...

而对于 31B Dense 我个人感觉是速度、上下文占用、推理稳定性的问题比较多，并没有像 benchmark 宣传的那么有优势，感觉更像一个可以证明模型上限的版本，而不是实际性价比的版本，目前 31B 的场景上还是 Qwen 更贴合现实。

至少 Mac mini M4 pro 64G 上跑 26B 可以日常用，31B 的体验至少要 M3 Ultra ，就算是 RTX 4090 24GB 也需要基于量化，上下文空间也不宽裕。

另外有人基于标准 llama-bench 基准测试和 OpenCode 进行单次编码评估，在 24GB 的 RTX 4090 进行评估：

Max Context 是指在可接受的生成速度下，VRAM 能够容纳的最大上下文大小。

所以目前玩玩的话， E2B/E4B 值得试试，门槛也很低，特别是 Gemini Nano via AICore ，走 Android 系统 AI Core （需要 Pixel），有 NPU / DSP 支持，性能更好：

而 26B MoE 版本地速度快、属于这次的甜点区，性价比和可玩性在里面是最值得推荐的，而 31B 版本相对见仁见智了，因为实际上现在测试的碎片化太严重了：