技术栈

qat

若苗瞬
20 天前
google·llama·gemma·qat·mtp
继续提速:Llama.cpp 已经正式支持 Gemma4 MTP原版的llama.cpp支持的平台很多,功能也很多,所以进度相对比较慢。 就在刚刚,突然发现,am17an的pr合并了。😄 这就意味着原版支持gemma4的MTP模式了,不用再自己编译pr或别的fork。
若苗瞬
21 天前
google·gemma·qat·gguf·unsloth
谷歌发布了 Gemma 4 QAT (Quantization-Aware Training) 模型前两天谷歌才发布了Gemma4-12B全模特模型,支持输入文本,图片,音频。突然Google官方又有动作。 首次发布了 Gemma4 系列的 QAT(Quantization-Aware Training)模型。
庞德公
2 年前
人工智能·大模型·量化·qat·ptq
picoLLM:大模型的量化魔术师 上大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。
我是有底线的