全面突围，谷歌昨晚更新了一大波大模型产品

这次，谷歌要凭「量」打败其他竞争对手。

当地时间本周二，谷歌在 Google's Cloud Next 2024 上发布了一系列 AI 相关的模型更新和产品，包括 Gemini 1.5 Pro 首次提供了本地音频（语音）理解功能、代码生成新模型 CodeGemma、首款自研 Arm 处理器 Axion 等等。

Gemini 1.5 Pro

Gemini 1.5 Pro 是 Google 功能最强大的生成式 AI 模型，现已在 Google 以企业为中心的 AI 开发平台 Vertex AI 上提供公共预览版。这是谷歌面向企业的 AI 开发平台。它能处理的上下文从 12.8 万个 token 增加到 100 万个 token。100 万个 token 大约相当于 70 万个单词，或者大约 3 万行代码。这大致是 Anthropic 的旗舰模型 Claude 3 能作为输入处理的数据量的四倍，也大约是 OpenAI 的 GPT-4 Turbo 最大上下文量的八倍。

官方原文链接：developers.googleblog.com/2024/04/gem...

该版本首次提供了本地音频（语音）理解功能和全新的文件 API，使文件处理变得更加简单。Gemini 1.5 Pro 的输入模态正在拓展，包括在 Gemini API 和 Google AI Studio 中增加对音频（语音）的理解。此外，Gemini 1.5 Pro 现在能够对在 Google AI Studio 中上传的视频的图像（帧）和音频（语音）进行推理。

可以上传一个讲座的录音，比如这个由 Jeff Dean 进行的超过 117000 个 token 的讲座，Gemini 1.5 Pro 可以将其转换成一个带有答案的测验。（演示已加速）

谷歌在 Gemini API 方面也进行了改进，主要有以下三个内容：

系统指令：现在可以在 Google AI Studio 和 Gemini API 中使用系统指令来指导模型的响应。定义角色、格式、目标和规则，以针对您的特定用例指导模型的行为。

在 Google AI Studio 中轻松设置系统指令

2.JSON 模式：指示模型仅输出 JSON 对象。这种模式使从文本或图像中提取结构化数据成为可能。现在可以使用 cURL，Python SDK 支持即将推出。

对函数调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、函数调用或仅函数本身。

此外，谷歌将发布下一代文本嵌入模型，其性能优于同类模型。从今天开始，开发者将能够通过 Gemini API 访问下一代文本嵌入模型。这个新模型，text-embedding-004（在 Vertex AI 中为 text-embedding-preview-0409），在 MTEB 基准测试中实现了更强的检索性能，并且超越了具有可比维度的现有模型。

在 MTEB 基准测试中，使用 256 dims 输出的 Text-embedding-004（又名 Gecko）优于所有较大的 768 dims 输出模型

不过，需要注意的是，Gemini 1.5 Pro 对于没有访问 Vertex AI 和 AI Studio 权限的人来说是不可用的。目前，大多数人通过 Gemini 聊天机器人来接触 Gemini 语言模型。Gemini Ultra 驱动了 Gemini Advanced 聊天机器人，虽然它功能强大，也能理解长命令，但它的速度不如 Gemini 1.5 Pro。

三大开源工具

在 2024 年的 Google Cloud Next 大会上，该公司推出多个开源工具，主要用于支持生成式 AI 项目和基础设施。其一是 Max Diffusion，它是各种扩散模型参考实现的集合，可在 XLA（加速线性代数）设备上运行。

GitHub 地址：github.com/google/maxd...

其二是 Jetstream，一个运行生成式 AI 模型的新引擎。目前，JetStream 只支持 TPU，未来可能会兼容 GPU。谷歌声称，JetStream 可为谷歌自己的 Gemma 7B 和 Meta 的 Llama 2 等模型提供高达 3 倍的性价比。

GitHub 地址：github.com/google/JetS...

第三个是 MaxTest，这是一个针对云中的 TPUs 和 Nvidia GPUs 的文本生成 AI 模型的集合。MaxText 现在包括 Gemma 7B、OpenAI 的 GPT-3、Llama 2 和来自 AI 初创公司 Mistral 的模型，谷歌表示所有这些模型都可以根据开发人员的需求进行定制和微调。

GitHub 地址：github.com/google/maxt...

首款自研 Arm 处理器 Axion

谷歌云宣布推出其首款自主研发的 Arm 处理器，名为 Axion。其基于 Arm 的 Neoverse 2，专为数据中心设计。谷歌表示其 Axion 实例的性能比其他竞争对手如 AWS 和微软的基于 Arm 的实例高出 30%，与相应的基于 X86 的实例相比，性能提高了最多 50%，能效提高了 60%。

谷歌在周二的发布会上强调，由于 Axion 建立在一个开放的基础上，谷歌云的客户将能够将他们现有的 Arm 工作负载带到谷歌云，而无需任何修改。

不过，目前谷歌还没有发布对此进行详细介绍的内容。

代码补全、生成利器 ------CodeGemma

CodeGemma 以 Gemma 模型为基础，为社区带来了强大而轻量级的编码功能。该模型可分为专门处理代码补全和代码生成任务的 7B 预训练变体、用于代码聊天和指令跟随的 7B 指令调优变体、以及在本地计算机上运行快速代码补全的 2B 预训练变体。

CodeGemma 具有以下几大优势：

智能代码补全和生成：补全行、函数，甚至生成整个代码块，无论你是在本地还是云上工作；
更高准确性：CodeGemma 主要使用来自网络文档、数学和代码的 5000 亿 token 的英语语言数据进行训练，生成的代码不仅语法更正确，语义也更有意义，有助于减少错误和 debug 时间；
多语言能力：支持 Python、JavaScript、Java 和其他流行编程语言；
简化工作流程：将 CodeGemma 集成到你的开发环境中，以减少编写的样板代码，并更快地编写重要、有趣且差异化的代码。

CodeGemma 与其他主流代码大模型的一些比较结果如下图所示：