图片来自 Google
Google 发布了一个全新的模型,名为 Gemma 3,拥有 270 亿个参数。Gemma 是一个轻量级、最先进的开源模型系列,采用与 Gemini 模型相同的研究和技术构建。Gemma 3 专为开发者打造,可用于构建 AI 应用,适用于从手机到工作站等各种设备,支持超过 35 种语言,并具备处理文本、图像和短视频的能力。
根据该公司在博客文章中的说法,它是"全球最佳的单加速器模型",在单 GPU 主机上超越了 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview 和 o3-mini-high。对于一个专注于轻量化设计的模型来说,这确实令人印象深刻。
以下是你需要了解的 Gemma 3 相关信息。
Gemma 3 是什么?
与 Google 的专有 Gemini 模型不同,Gemma 3 是开源的。这意味着任何人都可以访问并使用它。它共有四种不同的规模:10 亿、40 亿、120 亿和 270 亿参数。
新模型引入了几个关键功能:
• 图像和文本输入:多模态能力允许你输入图像和文本,使视觉数据分析和理解更加深入。
• 128K Token 上下文:提供 16 倍更大的上下文窗口,使其能够分析庞大的数据集并处理更复杂的问题。
• 广泛的语言支持:支持 140 多种语言,可以用你偏好的语言运行,或者扩展你的 AI 应用的覆盖范围。
• 开发者友好的模型规模:提供多种规模(1B、4B、12B、27B)和精度级别,可根据你的任务需求和计算资源选择最佳适配版本。
这些模型现已在 Hugging Face 上提供下载。
如果你计划在本地机器上运行它,以下是不同规模的 Gemma 3 模型版本在推理时的大致 GPU 或 TPU 内存需求。
运行 Gemma 3 各个规模模型的 GPU 或 TPU 内存需求
内存消耗会根据你的提示词所需的总 token 数量而增加。提示词所需的 token 越多,使用的内存就越多,此外还需要额外的内存来加载模型本身。
Google 将其描述为迄今为止最先进的开源模型。"这些是我们最先进、最便携且负责任开发的开源模型,"该公司在官方博客文章中表示。
最初的 Gemma 于一年前发布,自那以来下载量已超过 1 亿次。Google 表示,社区已经创造了 60,000 个衍生版本,形成了他们称之为'Gemmaverse'的生态体系。
你可以在这里了解更多关于 Gemma 3 的技术细节。
与其他模型的对比
在人类评估者(Chiang 等,2024)进行的盲测对比评估中,Gemma 3 展现出了令人印象深刻的性能。使用 Elo 评分系统(一种广泛认可的相对性能评估方法),Gemma-3--27B-IT 在初步评分中超过了多个知名竞争对手,包括 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview。
Gemma 3 与 Meta 的 Llama、DeepSeek、OpenAI 的 o1-preview 及其他模型的对比
这使得 Gemma 3 在快速发展的开源多模态 AI 模型领域中成为一个极具竞争力的选择。下面是一张更直观的图表,展示 Gemma 3 与其他模型的对比。
Gemma 3 在 Chatbot Arena Elo 评分中的表现,对比其他顶级 AI 模型
Gemma 3 还在零样本基准测试中进行了评估,比较了其在各种能力上的表现,不仅与之前的版本(如 Gemma 2)相比,还与 Gemini 1.5 和 Gemini 2.0 进行了对比。
Gemma 3 与 Gemma 2 以及 Gemini 1.5 和 Gemini 2.0 的对比
这些评估显示了能力上的显著提升,展现了 Gemma 3 在泛化能力方面的增强,以及在无需特定训练的情况下有效处理多种任务的能力。
如何访问 Gemma 3
如果你只是想试用一下,Google AI Studio 允许你直接在浏览器中运行它,无需任何设置。访问 aistudio.google.com,然后将模型设置为'Gemma 3 27B'。
Google AI Studio 上的 Gemma 3
对于开发者,你可以从 AI Studio 获取 API 密钥,并使用 Google GenAI SDK 进行集成。以下是在 Vertex AI API 中使用的 Python 示例:
from google import genai
from google.genai.types import HttpOptions
client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
model="gemini-2.0-flash-001",
contents="How does AI work?",
)
print(response.text)
示例响应:
好的,让我们来解析 AI 的工作原理。这是一个广泛的领域,所以我会专注于...
下面是一个简化的概述:
...
如果你需要更多控制,Gemma 3 可在 Hugging Face、Kaggle 和 Ollama 上获取,提供四种规模版本,以及 ShieldGemma 2。它支持开箱即用的微调,并可以运行在 Google Colab 或你的本地 GPU 上。
部署选项
对于部署,选择多样。你可以使用 Vertex AI 进行扩展,使用 Cloud Run 和 Ollama 快速启动,或通过 NVIDIA 的 API Catalog 进行性能优化。该模型专为 NVIDIA GPU、Google Cloud TPU 以及通过 ROCm 适配的 AMD GPU 进行优化,并可通过 Gemma.cpp 运行在 CPU 上。
学术研究者福利
Google 还为学术研究人员提供了一项额外奖励------通过 Gemma 3 学术计划,可申请 $10,000 的云端计算积分。申请已于今日开放,并将持续四周。
最终想法
Gemma 3 的性能确实令人印象深刻,尤其是考虑到它的规模。一个 270 亿参数的模型能够与更大规模的模型媲美甚至超越,充分说明了 AI 效率的提升幅度。这也引发了一个有趣的问题------对于大多数任务来说,我们真的需要庞大的模型,还是只是在不必要地扩展规模?
128K token 的上下文窗口对于这个模型规模来说是一个巨大的提升,但真正的亮点是它的多模态能力和优化的推理速度。话虽如此,我暂时还想不到太多能充分利用这么多 token 的实际应用场景。不过,拥有这样的选项始终是一个优势。
我还没有进行深入测试,但从目前来看,AI 社区的初步反馈非常积极。我很快会在 Ollama 上进一步尝试 Gemma 3,特别是它的多模态功能表现如何,这让我非常好奇。
如果你对 AI 开发感兴趣,我认为这个模型绝对值得一试。无论是在 Google AI Studio 进行测试,在 Hugging Face 上微调,还是通过 Vertex AI 进行部署,都有很多方式可以看看它如何与其他模型对比。试试看,然后告诉我你的想法。