Google 发布 Gemma 3 —— 你需要了解的内容

图片来自 Google

Google 发布了一个全新的模型,名为 Gemma 3,拥有 270 亿个参数。Gemma 是一个轻量级、最先进的开源模型系列,采用与 Gemini 模型相同的研究和技术构建。Gemma 3 专为开发者打造,可用于构建 AI 应用,适用于从手机到工作站等各种设备,支持超过 35 种语言,并具备处理文本、图像和短视频的能力。

根据该公司在博客文章中的说法,它是"全球最佳的单加速器模型",在单 GPU 主机上超越了 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview 和 o3-mini-high。对于一个专注于轻量化设计的模型来说,这确实令人印象深刻。

以下是你需要了解的 Gemma 3 相关信息。

Gemma 3 是什么?

与 Google 的专有 Gemini 模型不同,Gemma 3 是开源的。这意味着任何人都可以访问并使用它。它共有四种不同的规模:10 亿、40 亿、120 亿和 270 亿参数。

新模型引入了几个关键功能:

• 图像和文本输入:多模态能力允许你输入图像和文本,使视觉数据分析和理解更加深入。

• 128K Token 上下文:提供 16 倍更大的上下文窗口,使其能够分析庞大的数据集并处理更复杂的问题。

• 广泛的语言支持:支持 140 多种语言,可以用你偏好的语言运行,或者扩展你的 AI 应用的覆盖范围。

• 开发者友好的模型规模:提供多种规模(1B、4B、12B、27B)和精度级别,可根据你的任务需求和计算资源选择最佳适配版本。

这些模型现已在 Hugging Face 上提供下载。

如果你计划在本地机器上运行它,以下是不同规模的 Gemma 3 模型版本在推理时的大致 GPU 或 TPU 内存需求。

运行 Gemma 3 各个规模模型的 GPU 或 TPU 内存需求

内存消耗会根据你的提示词所需的总 token 数量而增加。提示词所需的 token 越多,使用的内存就越多,此外还需要额外的内存来加载模型本身。

Google 将其描述为迄今为止最先进的开源模型。"这些是我们最先进、最便携且负责任开发的开源模型,"该公司在官方博客文章中表示。

最初的 Gemma 于一年前发布,自那以来下载量已超过 1 亿次。Google 表示,社区已经创造了 60,000 个衍生版本,形成了他们称之为'Gemmaverse'的生态体系。

你可以在这里了解更多关于 Gemma 3 的技术细节。

与其他模型的对比

在人类评估者(Chiang 等,2024)进行的盲测对比评估中,Gemma 3 展现出了令人印象深刻的性能。使用 Elo 评分系统(一种广泛认可的相对性能评估方法),Gemma-3--27B-IT 在初步评分中超过了多个知名竞争对手,包括 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview。

Gemma 3 与 Meta 的 Llama、DeepSeek、OpenAI 的 o1-preview 及其他模型的对比

这使得 Gemma 3 在快速发展的开源多模态 AI 模型领域中成为一个极具竞争力的选择。下面是一张更直观的图表,展示 Gemma 3 与其他模型的对比。

Gemma 3 在 Chatbot Arena Elo 评分中的表现,对比其他顶级 AI 模型

Gemma 3 还在零样本基准测试中进行了评估,比较了其在各种能力上的表现,不仅与之前的版本(如 Gemma 2)相比,还与 Gemini 1.5 和 Gemini 2.0 进行了对比。

Gemma 3 与 Gemma 2 以及 Gemini 1.5 和 Gemini 2.0 的对比

这些评估显示了能力上的显著提升,展现了 Gemma 3 在泛化能力方面的增强,以及在无需特定训练的情况下有效处理多种任务的能力。

如何访问 Gemma 3

如果你只是想试用一下,Google AI Studio 允许你直接在浏览器中运行它,无需任何设置。访问 aistudio.google.com,然后将模型设置为'Gemma 3 27B'。

Google AI Studio 上的 Gemma 3

对于开发者,你可以从 AI Studio 获取 API 密钥,并使用 Google GenAI SDK 进行集成。以下是在 Vertex AI API 中使用的 Python 示例:

from google import genai

from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))

response = client.models.generate_content(

model="gemini-2.0-flash-001",

contents="How does AI work?",

)

print(response.text)

示例响应:

好的,让我们来解析 AI 的工作原理。这是一个广泛的领域,所以我会专注于...

下面是一个简化的概述:

...

如果你需要更多控制,Gemma 3 可在 Hugging Face、Kaggle 和 Ollama 上获取,提供四种规模版本,以及 ShieldGemma 2。它支持开箱即用的微调,并可以运行在 Google Colab 或你的本地 GPU 上。

部署选项

对于部署,选择多样。你可以使用 Vertex AI 进行扩展,使用 Cloud Run 和 Ollama 快速启动,或通过 NVIDIA 的 API Catalog 进行性能优化。该模型专为 NVIDIA GPU、Google Cloud TPU 以及通过 ROCm 适配的 AMD GPU 进行优化,并可通过 Gemma.cpp 运行在 CPU 上。

学术研究者福利

Google 还为学术研究人员提供了一项额外奖励------通过 Gemma 3 学术计划,可申请 $10,000 的云端计算积分。申请已于今日开放,并将持续四周。

最终想法

Gemma 3 的性能确实令人印象深刻,尤其是考虑到它的规模。一个 270 亿参数的模型能够与更大规模的模型媲美甚至超越,充分说明了 AI 效率的提升幅度。这也引发了一个有趣的问题------对于大多数任务来说,我们真的需要庞大的模型,还是只是在不必要地扩展规模?

128K token 的上下文窗口对于这个模型规模来说是一个巨大的提升,但真正的亮点是它的多模态能力和优化的推理速度。话虽如此,我暂时还想不到太多能充分利用这么多 token 的实际应用场景。不过,拥有这样的选项始终是一个优势。

我还没有进行深入测试,但从目前来看,AI 社区的初步反馈非常积极。我很快会在 Ollama 上进一步尝试 Gemma 3,特别是它的多模态功能表现如何,这让我非常好奇。

如果你对 AI 开发感兴趣,我认为这个模型绝对值得一试。无论是在 Google AI Studio 进行测试,在 Hugging Face 上微调,还是通过 Vertex AI 进行部署,都有很多方式可以看看它如何与其他模型对比。试试看,然后告诉我你的想法。

相关推荐
格林威2 小时前
短波红外相机的简单介绍和场景应用
人工智能·数码相机·计算机视觉·目标跟踪·视觉检测·工业相机·工业镜头
风口猪炒股指标2 小时前
《白日梦想家》片段与认知模式的思考
人工智能·博弈论·群体博弈·人生哲学·自我引导觉醒
lihuayong3 小时前
LangGraph React智能体 - 推理与行动的完美结合
人工智能·langgraph·react 智能体
机器之心3 小时前
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
人工智能·openai
曾经的三心草3 小时前
OpenCV5-图像特征harris-sift-特征匹配-图像全景拼接-答题卡识别判卷
人工智能·opencv·计算机视觉
慧星云3 小时前
魔多 AI 支持 Wan 系列在线训练 :解锁视频生成新高度
人工智能
麻辣兔变形记3 小时前
Solidity 合约超限问题及优化策略:以 FHEFactory 为例
人工智能·区块链
渡我白衣4 小时前
未来的 AI 操作系统(二)——世界即界面:自然语言成为新的人机交互协议
人工智能·语言模型·人机交互
墨利昂4 小时前
词向量:自然语言处理技术体系的核心基石
人工智能·自然语言处理
格林威4 小时前
可见光工业相机半导体制造领域中的应用
图像处理·人工智能·数码相机·计算机视觉·视觉检测·制造·工业相机