Google 发布 Gemma 3 —— 你需要了解的内容

图片来自 Google

Google 发布了一个全新的模型，名为 Gemma 3，拥有 270 亿个参数。Gemma 是一个轻量级、最先进的开源模型系列，采用与 Gemini 模型相同的研究和技术构建。Gemma 3 专为开发者打造，可用于构建 AI 应用，适用于从手机到工作站等各种设备，支持超过 35 种语言，并具备处理文本、图像和短视频的能力。

根据该公司在博客文章中的说法，它是"全球最佳的单加速器模型"，在单 GPU 主机上超越了 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview 和 o3-mini-high。对于一个专注于轻量化设计的模型来说，这确实令人印象深刻。

以下是你需要了解的 Gemma 3 相关信息。

Gemma 3 是什么？

与 Google 的专有 Gemini 模型不同，Gemma 3 是开源的。这意味着任何人都可以访问并使用它。它共有四种不同的规模：10 亿、40 亿、120 亿和 270 亿参数。

新模型引入了几个关键功能：

• 图像和文本输入：多模态能力允许你输入图像和文本，使视觉数据分析和理解更加深入。

• 128K Token 上下文：提供 16 倍更大的上下文窗口，使其能够分析庞大的数据集并处理更复杂的问题。

• 广泛的语言支持：支持 140 多种语言，可以用你偏好的语言运行，或者扩展你的 AI 应用的覆盖范围。

• 开发者友好的模型规模：提供多种规模（1B、4B、12B、27B）和精度级别，可根据你的任务需求和计算资源选择最佳适配版本。

这些模型现已在 Hugging Face 上提供下载。

如果你计划在本地机器上运行它，以下是不同规模的 Gemma 3 模型版本在推理时的大致 GPU 或 TPU 内存需求。

运行 Gemma 3 各个规模模型的 GPU 或 TPU 内存需求

内存消耗会根据你的提示词所需的总 token 数量而增加。提示词所需的 token 越多，使用的内存就越多，此外还需要额外的内存来加载模型本身。

Google 将其描述为迄今为止最先进的开源模型。"这些是我们最先进、最便携且负责任开发的开源模型，"该公司在官方博客文章中表示。

最初的 Gemma 于一年前发布，自那以来下载量已超过 1 亿次。Google 表示，社区已经创造了 60,000 个衍生版本，形成了他们称之为'Gemmaverse'的生态体系。

你可以在这里了解更多关于 Gemma 3 的技术细节。

与其他模型的对比

在人类评估者（Chiang 等，2024）进行的盲测对比评估中，Gemma 3 展现出了令人印象深刻的性能。使用 Elo 评分系统（一种广泛认可的相对性能评估方法），Gemma-3--27B-IT 在初步评分中超过了多个知名竞争对手，包括 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview。

Gemma 3 与 Meta 的 Llama、DeepSeek、OpenAI 的 o1-preview 及其他模型的对比

这使得 Gemma 3 在快速发展的开源多模态 AI 模型领域中成为一个极具竞争力的选择。下面是一张更直观的图表，展示 Gemma 3 与其他模型的对比。

Gemma 3 在 Chatbot Arena Elo 评分中的表现，对比其他顶级 AI 模型

Gemma 3 还在零样本基准测试中进行了评估，比较了其在各种能力上的表现，不仅与之前的版本（如 Gemma 2）相比，还与 Gemini 1.5 和 Gemini 2.0 进行了对比。

Gemma 3 与 Gemma 2 以及 Gemini 1.5 和 Gemini 2.0 的对比

这些评估显示了能力上的显著提升，展现了 Gemma 3 在泛化能力方面的增强，以及在无需特定训练的情况下有效处理多种任务的能力。

如何访问 Gemma 3

如果你只是想试用一下，Google AI Studio 允许你直接在浏览器中运行它，无需任何设置。访问 aistudio.google.com，然后将模型设置为'Gemma 3 27B'。

Google AI Studio 上的 Gemma 3

对于开发者，你可以从 AI Studio 获取 API 密钥，并使用 Google GenAI SDK 进行集成。以下是在 Vertex AI API 中使用的 Python 示例：

from google import genai

from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))

response = client.models.generate_content(

model="gemini-2.0-flash-001",

contents="How does AI work?",

)

print(response.text)

示例响应：

好的，让我们来解析 AI 的工作原理。这是一个广泛的领域，所以我会专注于...

下面是一个简化的概述：

...

如果你需要更多控制，Gemma 3 可在 Hugging Face、Kaggle 和 Ollama 上获取，提供四种规模版本，以及 ShieldGemma 2。它支持开箱即用的微调，并可以运行在 Google Colab 或你的本地 GPU 上。

部署选项

对于部署，选择多样。你可以使用 Vertex AI 进行扩展，使用 Cloud Run 和 Ollama 快速启动，或通过 NVIDIA 的 API Catalog 进行性能优化。该模型专为 NVIDIA GPU、Google Cloud TPU 以及通过 ROCm 适配的 AMD GPU 进行优化，并可通过 Gemma.cpp 运行在 CPU 上。

学术研究者福利

Google 还为学术研究人员提供了一项额外奖励------通过 Gemma 3 学术计划，可申请 $10,000 的云端计算积分。申请已于今日开放，并将持续四周。

最终想法

Gemma 3 的性能确实令人印象深刻，尤其是考虑到它的规模。一个 270 亿参数的模型能够与更大规模的模型媲美甚至超越，充分说明了 AI 效率的提升幅度。这也引发了一个有趣的问题------对于大多数任务来说，我们真的需要庞大的模型，还是只是在不必要地扩展规模？

128K token 的上下文窗口对于这个模型规模来说是一个巨大的提升，但真正的亮点是它的多模态能力和优化的推理速度。话虽如此，我暂时还想不到太多能充分利用这么多 token 的实际应用场景。不过，拥有这样的选项始终是一个优势。

我还没有进行深入测试，但从目前来看，AI 社区的初步反馈非常积极。我很快会在 Ollama 上进一步尝试 Gemma 3，特别是它的多模态功能表现如何，这让我非常好奇。

如果你对 AI 开发感兴趣，我认为这个模型绝对值得一试。无论是在 Google AI Studio 进行测试，在 Hugging Face 上微调，还是通过 Vertex AI 进行部署，都有很多方式可以看看它如何与其他模型对比。试试看，然后告诉我你的想法。