谷歌发布了 Gemma 4 QAT (Quantization-Aware Training) 模型

文章目录

(一)新模型?

前两天谷歌才发布了Gemma4-12B全模特模型,支持输入文本,图片,音频。

突然Google官方又有动作。

首次发布了 Gemma4 系列的 QAT(Quantization-Aware Training)模型

(二)QAT

平时用的 GGUF,是从BF16模型,经过llama.cpp量化,变成了Q4_K_M / IQ4_XS / IQ3_M......

属于PTQ(Post Training Quantization)就是训练完再量化。

训练的时候模型根本不知道未来会被量化,而当中的数据再量化时直接砍掉精度,所以会损失能力。

而QAT是训练阶段就告诉模型,未来你会被压成Q4,训练时不断模拟从BF16量化和还原。

模型会主动调整参数,使自己对量化误差更不敏感。

可以理解成:

  • 普通模型:考完试以后突然近视
  • QAT模型:训练时就戴着近视眼镜

所以最终压成 Q4 后能力损失明显更小(难道它原始能力不会更低吗?)。

(三)谷歌原版

Google 于 2026-06-05 发布了Gemma 4 QAT 系列,包括:

  • E2B
  • E4B
  • 12B
  • 26B-A4B
  • 31B

也就是说全部模型都有 QAT 的版本。

Google 官方目标是 Q4 ≈ 原始模型的能力,而不是大幅度降低。

(四)Unsloth版本

这里是最有意思的部分,Unsloth发现 Google 发布的是QAT Q4_0 检查点。

但是 QAT Q4_0 通过llama.cpp转换成GGUF的时候,过程中又会损失一次精度。

因为 Google 的量化格点(lattice)和llama.cpp 的量化格点不完全一致。

于是大家转成GGUF后,精度又掉回去了。

所以Unsloth做的工作就是把Google QAT拿来分析误差,重新映射到GGUF。

尽可能恢复 QAT 的优势。他们在说明中称:

对于大型模型:

  • 26B-A4B:70.2% → 85.6%
  • 31B:87.9% → 96.7%

但是随后谷歌自己又放出了GGUF。

谷歌的文件比Unsloth稍大,以12B为例子,谷歌文件大260MB左右。

似乎能看到不同就是谷歌把 Embedding / LM Head 保留到 Q6_K,而Unsloth版本是Q4_0。

那么我还是赌谷歌吧......等reddit上有比较确信的评价后再说。

相关推荐
Mac的实验室3 天前
最新注册谷歌Gmail邮箱遇到扫码无法验证的解决教程|2026年6月实测,Google邮箱注册不需要国内手机号发短信验证
google
Jack_num13 天前
AI 编程时代,UI 设计系统也需要工程化:从 Google DESIGN.md 说起
google·ai编程
尽兴-12 天前
6.1 模型优化:量化 INT4/INT8、GPTQ、AWQ、GGUF
人工智能·gptq·awq·gguf·int4/int8
winfredzhang12 天前
用 MediaPipe 手势数字识别一键打开下载夹里的图片(Python + OpenCV 实战)
人工智能·python·opencv·google·mediapipe
碳基硅坊14 天前
从“打字机”到“印刷机”:聊聊 Google 这只 4 倍速的 DiffusionGemma
人工智能·gemma·diffusiongemma
算家云15 天前
极速并行文本生成:谷歌开源 DiffusionGemma 扩散大模型
ai·google·大模型·算力
HyperAI超神经15 天前
在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果
人工智能·google·长上下文
黄林晴17 天前
Google Play 发版链路全面重构:合规前置、审核自动化、生态全面收紧
android·google
OpenBayes贝式计算17 天前
LongCat-Video-Avatar 1.5开源,具备全领域泛化能力的音频驱动视频生成模型;AI Student Impact Dataset 5 万量级多
google·llm·agent