Google 发布 Gemma 3 —— 你需要了解的内容

图片来自 Google

Google 发布了一个全新的模型,名为 Gemma 3,拥有 270 亿个参数。Gemma 是一个轻量级、最先进的开源模型系列,采用与 Gemini 模型相同的研究和技术构建。Gemma 3 专为开发者打造,可用于构建 AI 应用,适用于从手机到工作站等各种设备,支持超过 35 种语言,并具备处理文本、图像和短视频的能力。

根据该公司在博客文章中的说法,它是"全球最佳的单加速器模型",在单 GPU 主机上超越了 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview 和 o3-mini-high。对于一个专注于轻量化设计的模型来说,这确实令人印象深刻。

以下是你需要了解的 Gemma 3 相关信息。

Gemma 3 是什么?

与 Google 的专有 Gemini 模型不同,Gemma 3 是开源的。这意味着任何人都可以访问并使用它。它共有四种不同的规模:10 亿、40 亿、120 亿和 270 亿参数。

新模型引入了几个关键功能:

• 图像和文本输入:多模态能力允许你输入图像和文本,使视觉数据分析和理解更加深入。

• 128K Token 上下文:提供 16 倍更大的上下文窗口,使其能够分析庞大的数据集并处理更复杂的问题。

• 广泛的语言支持:支持 140 多种语言,可以用你偏好的语言运行,或者扩展你的 AI 应用的覆盖范围。

• 开发者友好的模型规模:提供多种规模(1B、4B、12B、27B)和精度级别,可根据你的任务需求和计算资源选择最佳适配版本。

这些模型现已在 Hugging Face 上提供下载。

如果你计划在本地机器上运行它,以下是不同规模的 Gemma 3 模型版本在推理时的大致 GPU 或 TPU 内存需求。

运行 Gemma 3 各个规模模型的 GPU 或 TPU 内存需求

内存消耗会根据你的提示词所需的总 token 数量而增加。提示词所需的 token 越多,使用的内存就越多,此外还需要额外的内存来加载模型本身。

Google 将其描述为迄今为止最先进的开源模型。"这些是我们最先进、最便携且负责任开发的开源模型,"该公司在官方博客文章中表示。

最初的 Gemma 于一年前发布,自那以来下载量已超过 1 亿次。Google 表示,社区已经创造了 60,000 个衍生版本,形成了他们称之为'Gemmaverse'的生态体系。

你可以在这里了解更多关于 Gemma 3 的技术细节。

与其他模型的对比

在人类评估者(Chiang 等,2024)进行的盲测对比评估中,Gemma 3 展现出了令人印象深刻的性能。使用 Elo 评分系统(一种广泛认可的相对性能评估方法),Gemma-3--27B-IT 在初步评分中超过了多个知名竞争对手,包括 Meta 的 Llama、DeepSeek 以及 OpenAI 的 o1-preview。

Gemma 3 与 Meta 的 Llama、DeepSeek、OpenAI 的 o1-preview 及其他模型的对比

这使得 Gemma 3 在快速发展的开源多模态 AI 模型领域中成为一个极具竞争力的选择。下面是一张更直观的图表,展示 Gemma 3 与其他模型的对比。

Gemma 3 在 Chatbot Arena Elo 评分中的表现,对比其他顶级 AI 模型

Gemma 3 还在零样本基准测试中进行了评估,比较了其在各种能力上的表现,不仅与之前的版本(如 Gemma 2)相比,还与 Gemini 1.5 和 Gemini 2.0 进行了对比。

Gemma 3 与 Gemma 2 以及 Gemini 1.5 和 Gemini 2.0 的对比

这些评估显示了能力上的显著提升,展现了 Gemma 3 在泛化能力方面的增强,以及在无需特定训练的情况下有效处理多种任务的能力。

如何访问 Gemma 3

如果你只是想试用一下,Google AI Studio 允许你直接在浏览器中运行它,无需任何设置。访问 aistudio.google.com,然后将模型设置为'Gemma 3 27B'。

Google AI Studio 上的 Gemma 3

对于开发者,你可以从 AI Studio 获取 API 密钥,并使用 Google GenAI SDK 进行集成。以下是在 Vertex AI API 中使用的 Python 示例:

from google import genai

from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))

response = client.models.generate_content(

model="gemini-2.0-flash-001",

contents="How does AI work?",

)

print(response.text)

示例响应:

好的,让我们来解析 AI 的工作原理。这是一个广泛的领域,所以我会专注于...

下面是一个简化的概述:

...

如果你需要更多控制,Gemma 3 可在 Hugging Face、Kaggle 和 Ollama 上获取,提供四种规模版本,以及 ShieldGemma 2。它支持开箱即用的微调,并可以运行在 Google Colab 或你的本地 GPU 上。

部署选项

对于部署,选择多样。你可以使用 Vertex AI 进行扩展,使用 Cloud Run 和 Ollama 快速启动,或通过 NVIDIA 的 API Catalog 进行性能优化。该模型专为 NVIDIA GPU、Google Cloud TPU 以及通过 ROCm 适配的 AMD GPU 进行优化,并可通过 Gemma.cpp 运行在 CPU 上。

学术研究者福利

Google 还为学术研究人员提供了一项额外奖励------通过 Gemma 3 学术计划,可申请 $10,000 的云端计算积分。申请已于今日开放,并将持续四周。

最终想法

Gemma 3 的性能确实令人印象深刻,尤其是考虑到它的规模。一个 270 亿参数的模型能够与更大规模的模型媲美甚至超越,充分说明了 AI 效率的提升幅度。这也引发了一个有趣的问题------对于大多数任务来说,我们真的需要庞大的模型,还是只是在不必要地扩展规模?

128K token 的上下文窗口对于这个模型规模来说是一个巨大的提升,但真正的亮点是它的多模态能力和优化的推理速度。话虽如此,我暂时还想不到太多能充分利用这么多 token 的实际应用场景。不过,拥有这样的选项始终是一个优势。

我还没有进行深入测试,但从目前来看,AI 社区的初步反馈非常积极。我很快会在 Ollama 上进一步尝试 Gemma 3,特别是它的多模态功能表现如何,这让我非常好奇。

如果你对 AI 开发感兴趣,我认为这个模型绝对值得一试。无论是在 Google AI Studio 进行测试,在 Hugging Face 上微调,还是通过 Vertex AI 进行部署,都有很多方式可以看看它如何与其他模型对比。试试看,然后告诉我你的想法。

相关推荐
想变成树袋熊13 分钟前
【自用】NLP算法面经(6)
人工智能·算法·自然语言处理
格林威35 分钟前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
checkcheckck1 小时前
spring ai 适配 流式回答、mcp、milvus向量数据库、rag、聊天会话记忆
人工智能
Microvision维视智造1 小时前
从“人工眼”到‘智能眼’:EZ-Vision视觉系统如何重构生产线视觉检测精度?
图像处理·人工智能·重构·视觉检测
巫婆理发2221 小时前
神经网络(多层感知机)(第二课第二周)
人工智能·深度学习·神经网络
lxmyzzs1 小时前
【打怪升级 - 03】YOLO11/YOLO12/YOLOv10/YOLOv8 完全指南:从理论到代码实战,新手入门必看教程
人工智能·神经网络·yolo·目标检测·计算机视觉
SEO_juper1 小时前
企业级 AI 工具选型报告:9 个技术平台的 ROI 对比与部署策略
人工智能·搜索引擎·百度·llm·工具·geo·数字营销
Coovally AI模型快速验证1 小时前
数据集分享 | 智慧农业实战数据集精选
人工智能·算法·目标检测·机器学习·计算机视觉·目标跟踪·无人机
xw33734095641 小时前
彩色转灰度的核心逻辑:三种经典方法及原理对比
人工智能·python·深度学习·opencv·计算机视觉
蓝桉8021 小时前
opencv学习(图像金字塔)
人工智能·opencv·学习