Google 开源大模型 Gemma4 怎么选,本地跑的话需要什么条件?

我觉得这 Gemma 4 并没有表现得特别优秀,但它大概率是这个系列到目前为止,发布最全面和友好的一次了,虽然也是很快就被安全破解的一次

因为 Gemma 4 这次发布的 E2B、E4B、26B A4B MoE 和 31B Dense ,可以说是覆盖小杯到超大杯全部范围,而最重要的是,这次改用了 Apache 2.0 许可,这可是首次采用 Apache 2.0,最大的惊喜

但是真要评价,核心还是在小模型,E2B/E4B 在结构化输出、对话、轻 agent 场景里目前反馈都还不错,比如在 6G 显存上,E2B 可以做到比 qwen 更快,个人感觉体验也更好一点,结构化输出也不错。

比如官方数据上: E2B 在部分设备上可以做到 1.5GB 内存运行,处理 4000 输入 token、跨 2 个 skill 的 agent 流程可在 3 秒内完成等,同时 Google AI Edge Gallery 直接在 iOS 和 Android 上提供 了Gemma 4 支持,这个体验就很不错。

而在 26B 和 31B 上,如果当某些排行上看就很有趣了,26B 可以作为 gemini-3.1-flash-lite 的平替,而 31B 可以平替 Gemini 2.5 pro

当然,我个人感觉 26B A4B 整体的速度和质量平衡会更实用,因为 26B A4B 这个形态相对比较平衡,总参数 25.2B、推理时只激活 3.8B,比 31B Dense 更快、但质量却相对接近,例如在多个公开 benchmark 上,Gemma 31B 相比 26B 表现接近:

  • 在 Arena AI text leaderboard 上,31B 的 Elo 高出约 10 分左右
  • 在数学基准(如 AIME)中,提升约 1%
  • 在代码生成(LiveCodeBench)上,提升约 2%~3%
  • 在高难推理(GPQA Diamond)中,提升约 1%~2%

可以看出来,26B A4B 靠相对少量的激活参数,就让效果逼近 31B Dense 的表现,可以说是最有性价比的。

也有人测试 26B A4B 和 Qwen 3.5 35B A3B 速度接近,比如 Gemma 26b a4b 在 Mac Studio M1 Ultra 上的速度和 Qwen3.5 35b a3b 相同(在 20k 上下文长度下,大约 1000pp,60tg,llama.cpp)

约 ~1000 prefill / ~60 tok/s @ 20k context ,而在独立 agentic coding 对比里,26B A4B 的生成速度约 ~135 tok/s,和 Qwen 3.5 35B A3B 的 ~136 tok/s 接近,但主观评价上看,26B A4B 代码质量评价偏弱。

这也是我个人相对不推荐 31B Dense 的原因,生成还是慢了不少,长思考却又不能稳定,吃上下文内存也比较高,相对起来速度和稳定还不如 Qwen 3.5-27B,幻觉相对更大。

另外,这里就不得不提 gemma4 一开始存在的问题:上下文占用资源过多,刚出来那会没办法像 qwens 那样加载更长的上下文,LM Studio 中的缓存量化会有问题,导致模型不稳定并经常陷入循环。

后来 LM Studio 更新( llama.cpp 2.11.0 )修复了,可以实现 32K 上下文(26B 4AB Q5_K_M)。

当然,最重要的是,Gemma-4-31B 模型才发布没一会就有了越狱版本,安全限制被完全移除,而且 Gemma-4-31B-JANG_4M-CRACK 这个破解模型已经公开发布在 Hugging Face。

根据 Apache 2.0 许可来看,这个破解模型相对还是合法?毕竟 2.0 许可支持修改和再分发?

最后,目前大多数好评还是集中在小模型上,只能说这个领域要有一个可用的实在不容易,特别是 E4B 在结构化抽取上的可用性,比如有用户把 E4B fine-tune 到监管文档 JSON 抽取任务上,基础模型在零微调下就能做到 100% JSON validity、75% 的文档类型准确率,微调后提升到 94%,幻觉义务项从 1.25/doc 降到 0.59/doc,这个底子还是可以的。

github.com/spriyads-va...

而对于 31B Dense 我个人感觉是速度、上下文占用、推理稳定性的问题比较多,并没有像 benchmark 宣传的那么有优势,感觉更像一个可以证明模型上限的版本,而不是实际性价比的版本,目前 31B 的场景上还是 Qwen 更贴合现实。

至少 Mac mini M4 pro 64G 上跑 26B 可以日常用,31B 的体验至少要 M3 Ultra ,就算是 RTX 4090 24GB 也需要基于量化,上下文空间也不宽裕。

另外有人基于标准 llama-bench 基准测试和 OpenCode 进行单次编码评估,在 24GB 的 RTX 4090 进行评估:

Max Context 是指在可接受的生成速度下,VRAM 能够容纳的最大上下文大小。

所以目前玩玩的话, E2B/E4B 值得试试,门槛也很低,特别是 Gemini Nano via AICore ,走 Android 系统 AI Core (需要 Pixel),有 NPU / DSP 支持,性能更好:

而 26B MoE 版本地速度快、属于这次的甜点区,性价比和可玩性在里面是最值得推荐的,而 31B 版本相对见仁见智了,因为实际上现在测试的碎片化太严重了:

相关推荐
飞哥数智坊2 小时前
【大纲】TRAE AI 编程入门扩展课:一些可能有用的编程常识
人工智能·ai编程·trae
用户2018792831672 小时前
Cli开端之 /init命令
人工智能
文心快码BaiduComate2 小时前
Comate搭载GLM-5.1:长程8H,对齐Opus 4.6
前端·后端·架构
用户2018792831672 小时前
/rewind 完全指南:时光机原理与终极用法
人工智能
熊猫钓鱼>_>2 小时前
AI驱动的Web应用智能化:WebMCP、WebSkills与WebAgent的融合实践
前端·人工智能·ai·skill·webagent·webmcp·webskills
用户2018792831672 小时前
/insights 命令之一个AI教练的故事
人工智能
key_3_feng2 小时前
Workbuddy——Not only Work, but also Entertainment!
人工智能·workbuddy
毛骗导演2 小时前
OpenClaw Pi Agent 深度解析:嵌入式 Agent 运行时的架构设计与实现
前端·架构