谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

大佬 1 小时演讲 1 分钟搞定
丰色 发自 凹非寺

量子位 | 公众号 QbitAI

谷歌最强大模型 Gemini 1.5 Pro 今天起,"全面" 对外开放。

目前完全免费,开发者可以通过 API 调用的方式使用,普通玩家也可以在谷歌 AI Studio 中直接体验。

(Ps. 发布这则消息的谷歌工程师 Logan Kilpatrick 正是原来 OpenAI 开发者关系的负责人,刚刚跳槽到谷歌。)

最让人期待的是,Gemini 1.5 Pro API 首次增加了音频理解功能。

无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。

如下图所示:

上传 Jeff Dean 长约 117000+token 的演讲录音,Gemini 1.5 Pro 在 30.8s 内就完成了解析。

而由于 Gemini 1.5 Pro100 万的上下文窗口 这次也直接对外开放,因此它可以处理的最长音频约为 11 小时,最长视频则为 1 小时,相当够用。

我们也赶紧实测了一把,结果是真香。

谷歌官方给这次免费开放的 Gemini 1.5 Pro 版本定义为 "公开预览版"

它主要面向开发者,可在谷歌 AI Studio 中获得 API 密钥:

目前最引人注目的音频理解功能还没添加到 API 中,但据说很快就会补上。

问题不大,我们可以先在 Google AI Studio 中直接体验:

在实测中,我们上传了比尔盖茨 1995 年做客 Late Show 节目的一段音频,时长 1 分钟。

我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro 直接就听出来了是谁。

并在 10s 左右精准整理出了全对话的精华部分,一点 "正确的废话" 都没有:

表现令人折服。

接下来,来个更具挑战的,Andrej Karpathy1 小时长的大模型科普教程。

我们提取音频文件,足足 10 万多个 token(这种在 UI 里直接显示当前消耗 token 数量的方法也广受好评)。

Gemini 1.5 Pro 最终在 53s 内按要求给出了 10 个亮点分析:

可以说一分钟就让我们对 1 小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。

继续回到 API 本身。

除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro 还提供了另外 3 项新功能 / 改进:

首先是系统指令

我们可以自定义一些特殊用例,包括它们的角色、输出格式 / 风格 / 语气、目标和规则等等。

设置完成后,这个指令就会应用于接下来的整个请求。

示例如下:

其次,JSON 模式

也就是可以指示模型仅输出 JSON 对象了,非常方便我们从文本或图像中提取结构化数据。

第三,函数调用上也有改进

为了提高可靠性,Gemini 1.5 Pro 也可以选择不同模式来限制模型的输出了。

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。

最后,还没完,从今天起,开发者还能通过该 API 调用谷歌的下一代文本嵌入模型:

text-embedding-004(又名 "Gecko")。

该模型在 MTEB 基准上实现了非常强大的检索性能,优于可比维度的所有对手。

Gemini 1.5 Pro 于 2 月 15 日发布,距今还不到两个月。

它是 Gemini Pro 的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:

从 128k 到最多 100 万。

100 万个 token 相当于可处理 70 万个单词或约 3 万行代码,折合成音频就是约 11 小时,视频约 1 小时。

无疑是很大的一个量级了(现在则完全在 API 中开放)。

当时官方的演示包括用它搜索阿波罗 11 号登月的电视转播信息,一共 402 页文字记录。

模型的响应时间大约在 20s 到 1 分钟。稍微有点慢,但谷歌承诺会优化延迟时间。

而 Gemini 1.5 Pro 发布之后,网友也很快分享了一些还不错的内测结果,包括:

鉴别 Sora 视频是否 AI 生成,给出关键证据;

在一场 14 分钟的 NBA 扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近 10 万 token,结果三十几秒内就给出了完整详尽的报告。

可以说,这次谷歌整体是没有让大伙失望的。

最高能的是,它还能看录像改 BUG

有网友在编写一个网页的代码时故意留了 3 个 bug,并分别录制了 3 个 bug 视频,外加代码库打包成文件一同丢给 Gemini 1.5 Pro,结果全部分分钟给出正确代码。

这位网友当时就表示:这 "小伙子" 前途不可限量啊。

而在今天,随着 Gemini 1.5 Pro API 的 "全面" 开放,大伙可以更进一步地感受其厉害了。

咳咳,就是目前速率限制还有点高:

每分钟请求量为 5 次,每分钟 token 为 1000 万个,每日请求量为 2000 个~

友情链接:
aistudio.google.com/app/prompts...

参考链接:
developers.googleblog.com/2024/04/gem...
twitter.com/OfficialLog...

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关推荐
战场小包2 个月前
OpenAI动荡,将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分 | AGI掘金视界周刊第 4 期
人工智能·资讯
字节跳动开源2 个月前
字节跳动开源多云多集群管理引擎 KubeAdmiral v1.0.0 发布!
开源·github·资讯
战场小包2 个月前
AI视界周刊第 2 期:里程碑 Llama 3.1 开源、AI训AI,越训越傻、AI 搜索重燃战火
人工智能·资讯
栩栩云生2 个月前
[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案
typescript·node.js·资讯
赵侠客2 个月前
使用Hutool要注意了!升级到6.0后你调用的所有方法都将报错
java·后端·资讯
栩栩云生3 个月前
[240706] 史蒂夫·乔布斯近40年前就预言了苹果智能 | Globalping 用于网络诊断和性能测试的命令行工具
命令行·apple·资讯
栩栩云生3 个月前
[240622] X-CMD 发布 v0.3.12: 引入 codeberg,增强传统命令,改善对 Elvish 和 Fish 支持
开源·命令行·资讯
机器之心4 个月前
英伟达开源最强通用模型Nemotron-4 340B
llm·资讯
小小谢在掘金4 个月前
【2024W24】肖恩技术周刊(第 2 期)
资讯
机器之心4 个月前
原作者带队,LSTM卷土重来之Vision-LSTM出世
人工智能·资讯