谷歌 Gemma:一个轻量级开源模型

在过去的一周,世界见证了两家科技巨头最具突破性的人工智能进步。OpenAI 推出了令人惊叹的 AI 视频生成器 Sora,而 Google 推出了 Gemini 1.5 模型,能够支持多达 100 万个 Token 上下文。

Gemma,是一个轻量级、最先进的开源模型系列,它建立在用于创建 Gemini 模型的研究和技术的基础上。

什么是Gemma

Gemma 是以拉丁语 gemma 命名,意思是宝石 ,Gemma 从其前身 Gemini 中汲取灵感,反映了它在科技界的价值和稀有性。

它们是文本到文本、仅限解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。

Gemma 已经开始在全球范围内提供两种大小 2B7B,支持多种工具和系统,并可以在开发人员笔记本电脑和工作站上运行。

2 种模型大小和功能

Gemma 模型有 20 billion70 billion 参数大小可供选择。 2B 模型旨在移动设备和笔记本电脑上运行,而 7B 模型旨在台式计算机和小型服务器上运行。

调整模型

Gemma 也有两个版本:调整版和预训练版。

  • 预训练:没有任何微调的基本模型。该模型未针对 Gemma 核心数据训练集之外的任何特定任务或指令进行训练。
  • 指令调整:针对人类语言交互进行了微调,提高了其执行目标任务的能力。

与竞争对手相比?

由于 Gemma 体积小,因此能够直接在用户的笔记本电脑上运行。下图显示了 Gemma(7B)的语言理解和生成性能与 LLaMA 2 (7B)、LLaMA 2(13B) 和 Mistral(7B)等类似大小的开放模型的比较。

可以在此处查看每个基准的更详细比较。

Gemini 1.5 有什么新功能?

Gemini 1.5 提供了重大增强功能,旨在解决初始版本的缺点:

  • 1,000,000 个Token上下文:这是目前任何大型基础模型中最大的上下文。 OpenAI 的 GPT-4 具有 128K 上下文。
  • 将有更快的响应:谷歌正在采用可能为 GPT-4 提供支持的专家混合 MoE 架构,使得模型能够将提示分解为子任务并将其路由给专门的"专家",从而显着提高效率和性能。
  • 快速信息检索:新模型展示了在大量文本、视频或音频数据中精确定位特定细节的能力显着提高。
  • 更擅长编码:大型上下文可以对整个代码库进行深入分析,帮助 Gemini 模型掌握复杂的关系、模式和对代码的理解。

可以用来做什么?

以下是 Gemma 的一些可能的使用场景:

内容创作与传播

  • 文本生成
  • 聊天机器人和对话式人工智能
  • 文本摘要

研究与教育

  • 自然语言处理 (NLP)研究:作为 NLP 研究的基础,试验技术、开发算法并为该领域的进步做出贡献。
  • 语言学习工具:支持交互式语言学习体验、帮助语法纠正或提供写作练习。
  • 知识探索:通过生成摘要或回答有关特定主题的问题,帮助研究人员探索大量文本。

以前需要非常大的模型的任务现在可以使用最先进的、更小的模型。这开启了开发 AI 应用程序的全新方式,很快就可以在智能手机上看到设备内的 AI 聊天机器人------不需要互联网连接。

尝试开始

Gemma 模型可以从 Kaggle Models 下载运行。

进入页面后,选择 Code 标签:

随便选择一个点击进去,这里选择第一个:

选择 Run in Google Colab

总结

虽然 Gemma 模型可能很小并且缺乏复杂性,但它们可以在速度和使用成本方面弥补这一点。

从更大的角度来看,谷歌不是追逐消费者眼前的兴奋,而是为企业培育市场。设想一下,当开发人员使用 Gemma 创建创新的新消费者应用程序时,公司会为 Google Cloud 服务付费。

相关推荐
weyson1 小时前
CSharp OpenAI
人工智能·语言模型·chatgpt·openai
真忒修斯之船18 小时前
大模型分布式训练并行技术(三)流水线并行
面试·llm·aigc
SpikeKing18 小时前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
bytebeats2 天前
我用 Spring AI 集成 OpenAI ChatGPT API 创建了一个 Spring Boot 小程序
spring boot·chatgpt·openai
数据智能老司机2 天前
LLM工程师手册——监督微调
深度学习·架构·llm
AI_小站2 天前
LLM——10个大型语言模型(LLM)常见面试题以及答案解析
人工智能·程序人生·语言模型·自然语言处理·大模型·llm·大模型面试
waiting不是违停2 天前
LangChain Ollama实战文献检索助手(二)少样本提示FewShotPromptTemplate示例选择器
langchain·llm·ollama
我爱学Python!2 天前
AI Prompt如何帮你提升论文中的逻辑推理部分?
人工智能·程序人生·自然语言处理·chatgpt·llm·prompt·提示词
AI_小站3 天前
多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游
人工智能·程序人生·语言模型·大模型·llm·产品经理·多模态大模型
AI_小站3 天前
【AI工作流】FastGPT - 深入解析FastGPT工作流编排:从基础到高级应用的全面指南
人工智能·程序人生·语言模型·大模型·llm·fastgpt·大模型应用