qat

继续提速：Llama.cpp 已经正式支持 Gemma4 MTP原版的llama.cpp支持的平台很多，功能也很多，所以进度相对比较慢。就在刚刚，突然发现，am17an的pr合并了。😄 这就意味着原版支持gemma4的MTP模式了，不用再自己编译pr或别的fork。

谷歌发布了 Gemma 4 QAT (Quantization-Aware Training) 模型前两天谷歌才发布了Gemma4-12B全模特模型，支持输入文本，图片，音频。突然Google官方又有动作。首次发布了 Gemma4 系列的 QAT（Quantization-Aware Training）模型。

picoLLM：大模型的量化魔术师上大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

我是有底线的