谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

大佬 1 小时演讲 1 分钟搞定
丰色发自凹非寺

量子位 | 公众号 QbitAI

谷歌最强大模型 Gemini 1.5 Pro 今天起，"全面" 对外开放。

目前完全免费，开发者可以通过 API 调用的方式使用，普通玩家也可以在谷歌 AI Studio 中直接体验。

（Ps. 发布这则消息的谷歌工程师 Logan Kilpatrick 正是原来 OpenAI 开发者关系的负责人，刚刚跳槽到谷歌。）

最让人期待的是，Gemini 1.5 Pro API 首次增加了音频理解功能。

无论是财报电话会、电视节目还是大神演讲，不需要我们再提供字幕文档它就可以直接解读了。

如下图所示：

上传 Jeff Dean 长约 117000+token 的演讲录音，Gemini 1.5 Pro 在 30.8s 内就完成了解析。

而由于 Gemini 1.5 Pro100 万的上下文窗口这次也直接对外开放，因此它可以处理的最长音频约为 11 小时，最长视频则为 1 小时，相当够用。

我们也赶紧实测了一把，结果是真香。

谷歌官方给这次免费开放的 Gemini 1.5 Pro 版本定义为 "公开预览版"。

它主要面向开发者，可在谷歌 AI Studio 中获得 API 密钥：

目前最引人注目的音频理解功能还没添加到 API 中，但据说很快就会补上。

问题不大，我们可以先在 Google AI Studio 中直接体验：

在实测中，我们上传了比尔盖茨 1995 年做客 Late Show 节目的一段音频，时长 1 分钟。

我们没有提示这段音频的任何背景信息，Gemini 1.5 Pro 直接就听出来了是谁。

并在 10s 左右精准整理出了全对话的精华部分，一点 "正确的废话" 都没有：

表现令人折服。

接下来，来个更具挑战的，Andrej Karpathy1 小时长的大模型科普教程。

我们提取音频文件，足足 10 万多个 token（这种在 UI 里直接显示当前消耗 token 数量的方法也广受好评）。

Gemini 1.5 Pro 最终在 53s 内按要求给出了 10 个亮点分析：

可以说一分钟就让我们对 1 小时的演讲内容有了整体认知，再也不用费劲扒字幕文件了。

继续回到 API 本身。

除了音频理解，为了让开发者更好地控制模型输出，Gemini 1.5 Pro 还提供了另外 3 项新功能 / 改进：

首先是系统指令。

我们可以自定义一些特殊用例，包括它们的角色、输出格式 / 风格 / 语气、目标和规则等等。

设置完成后，这个指令就会应用于接下来的整个请求。

示例如下：

其次，JSON 模式。

也就是可以指示模型仅输出 JSON 对象了，非常方便我们从文本或图像中提取结构化数据。

第三，函数调用上也有改进。

为了提高可靠性，Gemini 1.5 Pro 也可以选择不同模式来限制模型的输出了。

可以是文本模式，将生成文本作为输出；也可以是函数调用模式，或者干脆只输出函数本身（不带任何参数或其他信息）。

最后，还没完，从今天起，开发者还能通过该 API 调用谷歌的下一代文本嵌入模型：

text-embedding-004（又名 "Gecko"）。

该模型在 MTEB 基准上实现了非常强大的检索性能，优于可比维度的所有对手。

Gemini 1.5 Pro 于 2 月 15 日发布，距今还不到两个月。

它是 Gemini Pro 的升级版，多模态多语言，最大的亮点无疑是上下文窗口长度：

从 128k 到最多 100 万。

100 万个 token 相当于可处理 70 万个单词或约 3 万行代码，折合成音频就是约 11 小时，视频约 1 小时。

无疑是很大的一个量级了（现在则完全在 API 中开放）。

当时官方的演示包括用它搜索阿波罗 11 号登月的电视转播信息，一共 402 页文字记录。

模型的响应时间大约在 20s 到 1 分钟。稍微有点慢，但谷歌承诺会优化延迟时间。

而 Gemini 1.5 Pro 发布之后，网友也很快分享了一些还不错的内测结果，包括：

鉴别 Sora 视频是否 AI 生成，给出关键证据；

在一场 14 分钟的 NBA 扣篮视频中，判断出哪个扣篮得分最高，并给出其中扣篮细节；

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本，合起来接近 10 万 token，结果三十几秒内就给出了完整详尽的报告。

可以说，这次谷歌整体是没有让大伙失望的。

最高能的是，它还能看录像改 BUG：

有网友在编写一个网页的代码时故意留了 3 个 bug，并分别录制了 3 个 bug 视频，外加代码库打包成文件一同丢给 Gemini 1.5 Pro，结果全部分分钟给出正确代码。

这位网友当时就表示：这 "小伙子" 前途不可限量啊。

而在今天，随着 Gemini 1.5 Pro API 的 "全面" 开放，大伙可以更进一步地感受其厉害了。

咳咳，就是目前速率限制还有点高：

每分钟请求量为 5 次，每分钟 token 为 1000 万个，每日请求量为 2000 个～

友情链接：
aistudio.google.com/app/prompts...

参考链接：
developers.googleblog.com/2024/04/gem...
twitter.com/OfficialLog...