谷歌打造开放AI新篇章,推出Gemma:免费商用,性能超越Llama 2!

在2月22日的最新动态中,谷歌通过其官方网站公布了一项重要消息:Gemma大型语言模型正式开源。

Gemma基于谷歌新近推出的Gemini模型架构,提供了20亿和70亿参数两个版本,每个版本都包括预训练模型和指令调优模型。

谷歌的测试结果表明,Gemma的70亿参数模型在MMLU、BBH、GSM8K等标准测试平台上,在数学、推理和编程等领域的表现均超越了Llama-2的70亿和130亿参数模型,成为了参数规模较小的ChatGPT式模型中的佼佼者。

值得注意的是,Gemma不仅可以商用,而且对于运行设备的要求相对较低,普通的笔记本电脑和台式机即可运行,不必依赖庞大的AI计算资源。

Kaggle链接:www.kaggle.com/models/goog...

huggingface链接:huggingface.co/models?sear...

技术文档:goo.gle/GemmaReport

长期以来,谷歌在AI界贡献了Transformers、TensorFlow、BERT、T5、JAX、AlphaFold等重要的技术,对世界AI的发展产生了深远的影响。然而,在生成式AI领域,谷歌一直略显落后于OpenAI。在开源领域,谷歌的表现也未能超越以Meta的Llama系列为代表的ChatGPT开源先驱。经过深刻的反思,谷歌决定重回开源赛道,以争夺开发者和用户的关注。

Gemma模型简介

谷歌宣称,Gemma之所以展现出卓越的性能,得益于其与Gemini一致的技术架构。

更多的开发者资源:ai.google.dev/gemma/docs?...

Gemini的底层架构基于Transformer编码器,通过自注意力机制和前馈神经网络层层建模,捕捉序列之间的依赖关系。

Gemini的特色在于其采用了多查询注意力机制,使其能够处理极其复杂的长文本序列。

模型通过为输入序列的每个位置生成多个查询向量,然后并行地将这些查询向量与键值对进行多头注意力运算,从而得到多个注意力输出。

除了提供开源模型权重外,谷歌还推出了Responsible Generative AI Toolkit等工具套件,旨在为使用Gemma的开发者提供安全的AI应用程序开发指南。

目前,Gemma提供两种版本:预训练版 ,未针对特定任务或指令进行优化;指令微调版,经过与人类语言互动的训练,能够响应对话式输入,类似于ChatGPT聊天机器人。

Gemma的优化和兼容性

开发者可以根据自己的数据对Gemma模型进行微调,以适应特定的应用场景,如生成摘要、文本或检索增强生成(RAG)。Gemma支持多种工具和平台:

多框架工具支持:

支持在Keras 3.0、原生PyTorch、JAX以及Hugging Face Transformers等多种框架上进行推理和微调。

跨设备运行:

Gemma能够在各类设备上运行,包括笔记本、台式机、物联网设备、移动设备以及云端,实现广泛的AI应用。

高性能硬件平台:

谷歌与NVIDIA合作,将Gemma模型针对NVIDIA GPU进行了优化,无论是在数据中心、云端还是本地RTX AI PC上,均能提供行业领先的性能,并与尖端AI技术无缝集成。

谷歌云优化:

Vertex AI提供了一整套MLOps工具,并支持一键部署,具备推理优化功能。通过顶级的Vertex AI或自我管理的GKE,可以实现高级定制功能,包括部署到成本效益高的GPU、TPU和CPU平台。

Gemma性能测试

谷歌在MMLU、BBH、GSM8K等主流测试平台上,将Gemma 70亿参数模型与Llama-2和Mistral模型在数学、推理、编程等方面进行了比较。

Gemma在标准学术测试平台上的平均得分超过了同规模的Llama 2和Mistral模型,在某些关键能力上甚至超过了Llama-2的130亿参数模型。

因此,Gemma不仅参数规模较小,而且性能表现出色。

相关推荐
QiLinkOS5 分钟前
第三视觉理解徐玉生与他的商业活动(28)
大数据·c++·人工智能·算法·开源协议
龙虾PRO7 分钟前
民生用能电气化提速:AI 驱动的新型能源体系落地解决方案全景
人工智能·能源
JNX_SEMI15 分钟前
AT2659 L1频段多模卫星导航低噪声放大器技术解析
前端·单片机·嵌入式硬件·物联网·硬件工程
livemetee23 分钟前
【关于Spring声明式事务】
java·后端·spring
卡梅德生物科技小能手1 小时前
卡梅德生物科普:CD94(NKG2A)
人工智能·深度学习
阿拉斯攀登1 小时前
AI Agent 入门:从 ChatGPT 到自主智能体
人工智能·chatgpt·agent·ai编程·loop
码兄科技1 小时前
Java AI智能体开发实战:从零构建企业级智能应用指南
java·开发语言·人工智能
2401_859506241 小时前
AIGC赋能大漆摆件设计:从痛点分析到技术架构与实战验证
java·大数据·人工智能
堆焊工艺分享1 小时前
2026-2030工业堆焊行业发展趋势:从维修辅业到智造核心工艺
大数据·人工智能
FluxArt1 小时前
Nano Banana 2 怎么用?14 种宽高比 + 4K 出图完整步骤
人工智能