gemma

从“打字机”到“印刷机”：聊聊 Google 这只 4 倍速的 DiffusionGemmaGoogle 又发新模型了。这次不叫 Gemma 5，也不叫 Gemini 后续版本，而是一个名字有点怪的——DiffusionGemma。

继续提速：Llama.cpp 已经正式支持 Gemma4 MTP原版的llama.cpp支持的平台很多，功能也很多，所以进度相对比较慢。就在刚刚，突然发现，am17an的pr合并了。😄 这就意味着原版支持gemma4的MTP模式了，不用再自己编译pr或别的fork。

谷歌发布了 Gemma 4 QAT (Quantization-Aware Training) 模型前两天谷歌才发布了Gemma4-12B全模特模型，支持输入文本，图片，音频。突然Google官方又有动作。首次发布了 Gemma4 系列的 QAT（Quantization-Aware Training）模型。

Gemma-4-31B推理加速：量化、框架与加速技术实战Gemma-4-31B是Google发布的开源旗舰模型，307亿参数在多项基准测试中超越参数量远超自身的闭源模型。但62GB的显存需求让大多数消费级显卡望而却步。本文聚焦31B模型的推理加速，从量化压缩、框架选型、MTP推测解码、DFlash块扩散加速四个维度给出实战方案。

Gemma 4 12B本地部署避坑：OMLX后缀、4bit/8bit选择与gemma4_unified报错修复🍃作者介绍：AI 应用负责人/AI产品架构师，阿里云专家博主。专注 LLM 应用开发、Agent 系统设计、具身智能与工业 AI 落地。日常在大模型训练、Coding Agent 工具链、AI 产品商业化等方向持续输出实战内容。 🦅个人主页：@逐梦苍穹 🐼GitHub主页：https://github.com/XZL-CODE ✈ 您的一键三连，是我创作的最大动力🌹

记一次失败的本地部署 LLM MTP 模型的过程先说结论：如果显卡没有24GB+的显存，确实没必要折腾。显存容量决定体验上限，MTP不是“免费加速”，而是用更多显存换 decode 加速。

Lucy-Fintech社区

Gemma-3-12b-it显存精细化管理实战：动态释放+缓存清理自动化脚本如果你正在本地运行像Gemma-3-12b-it这样的大模型，可能已经遇到了一个头疼的问题：显存不够用。刚开始对话时一切正常，但随着对话轮次增加，或者处理了几张图片后，程序开始报错，提示显存不足，甚至直接崩溃。

天工开物开源基金会

Google重磅发布Gemma 4：Apache 2.0许可证带来的开源“权力转移“引言2026年4月2日，Google DeepMind发布了Gemma 4。这不仅是又一代开源模型的发布，而且是Google首次在自己主导的Gemma系列上，将开源许可证从自定义使用条款切换为Apache 2.0——一份没有商业限制、没有数据传染风险、不可单方面撤销的行业标准协议。这个"switches（切换）"，在技术社区引发的震动，远超模型发布本身。

用llama试用gemma-4-E2B模型量化版本用llama试用gemma-4-E2B模型量化版本旧的llama不支持新模型，所以要下载新版的llama。gguf选择最常用的Q4_K_M量化，比ollama版本的原始模型小了一半。

如何用 C# 和 Gemma 3 在本地构建一个真正能完成工作的 AI 代理的目录像真正的队友一样工作的AI代理使这一切成为可能的技术栈从目标到行动：流程它已经能够处理的实际任务即时工程无法做到的事

使用 Ollama，通过 C#、语义内核和 Google Gemma 3 构建本地 AI 代理目录介绍为什么本地人工智能代表未来从聊天机器人到智能客服关键技术栈分步实施指南1. 设置和要求2. 使用 Gemma 3 安装和运行 Ollama

[x-cmd] Gemma 3 家族新成员：T5Gemma 2 正式发布，重新定义紧凑型编解码模型的性能上限如果你想持续获取更多相关资讯，欢迎关注 x-cmd 博客。Google 发布了 T5Gemma 2，这是基于 Gemma 3 架构的下一代编码器-解码器（Encoder-Decoder, E-D）模型家族。

1小时微调 Gemma 3 270M 端侧模型与部署全流程Gemma 3 270M是 Google 推出的一款虽小但能力惊人的开放模型。它属于 Gemma 家族，本质上是将 Gemini 模型中使用的相同技术带入了轻量级、可定制的形式中。

【技术报告】谷歌开源多模态大模型 Gemma-32025年 3月12日，谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型，是迄今为止最先进、便携且负责任开发的开源模型，可以直接在手机、PC、工作站上快速运行。

ollama本地部署大语言模型记录最近突然对大语言模型感兴趣同时在平时的一些线下断网的CTF比赛中，大语言模型也可以作为一个能对话交互的高级知识检索库

多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型本文怎么来的呢？其实很简单，源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型：一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma

【AI小项目5】使用 KerasNLP 对 Gemma 模型进行 LoRA 微调本项目使用 KerasNLP 对 Gemma 模型进行 LoRA 微调，为了快速验证微调的效果，仅在数据集的一个小子集上进行了一个周期的微调，并使用了较低的 LoRA 秩值。取得了显著的改进效果。

使用Ollama在本地运行AI大模型gemmahttps://github.com/ollama/ollama/releases我的电脑-右键-属性-系统-高级系统设置-环境变量-【系统环境变量】新建

【原创】手动安装open-webui，非官方docker安装方法，可汉化uiopen-webui是一个为LLMs（大型语言模型）设计的友好型Web用户界面，支持Ollama和OpenAI兼容的API。它提供了直观的聊天界面、响应式设计、快速响应性能、简易安装、代码语法高亮、Markdown和LaTeX支持、本地RAG集成、Web浏览能力、提示预设支持、RLHF注释、会话标记、模型下载/删除、GGUF文件模型创建、多模型支持、多模态支持、模型文件构建器、协作聊天、OpenAI API集成等功能。

谷歌开源的LLM大模型 Gemma 简介相关链接：谷歌推出了 Gemma，一个开放大型语言模型 (LLM) 的尖端系列，标志着其致力于开源人工智能的重要一步。同时Gemma 与 Hugging Face 平台的无缝集成，可以让AIGC爱好者更好的去使用。