Gemini 新版蝉联竞技场榜一，但刚发布就被越狱了

没等来 o3 Pro 和 GPT-5，隔壁谷歌的 Gemini 先更新了。

深夜，谷歌通过等多个账号同时官宣，Gemini 2.5 Pro 再次推出新版本（0605）。

新版本在代码、推理等任务上的表现更上一层楼，在超难数据集 "人类最后的考试" 中以 21.6% 的成绩超过了 o3。

在大模型竞技场上，新版 Gemini 也超越了自己，Elo 评分比上个月的版本提升了 24 分。

谷歌 CEO 劈柴哥还发了一张 AI 合成的狮子照片，配文一个 "Gemini"，暗示了新模型的实力。

谷歌 AI studio 产品负责人 Logan 表示，这次的更新预计会成为 Gemini 2.5 Pro 的长期稳定版本。

有意思的是，发布之大概 10 多个小时，Logan 就进行了一波剧透，发了一条只有 Gemini 这一个词的推文。

谷歌表示，Gemini APP 中的模型将在今日更新为该版本，开发者版本也已在谷歌 AI Studio 和 Vertex AI 当中上新。

Gemini 超越 Gemini，登顶大模型竞技场

谷歌介绍，这次的 0605 版本基于 I/O 大会上展示的 0506 版本构建，预计将成为 Gemini 2.5 Pro 的正式稳定版。

Gemini 2.5 Pro 最早是在 3 月 25 日发布了实验版本，4 月 4 日更新了公开预览版，代号仍然是 0325，再然后就是上个月的 0506。

在 "人类最后的考试" 当中，0605 的成绩达到了 21.6%，领先了 o3 1.3 个百分点，超过了 Claude 4 Opus 的两倍。

另外在 GPQA 上，0605 的成绩也同样超过了几家主要竞争对手，并且单次尝试的准确率比 Claude 和 Grok 多次尝试还要高。

数学竞赛和 LiveCodeBench 编程上，0605 表现稍逊于 OpenAI 家的模型，但 0605 在代码编辑能力（Aider Polyglot）上领先。

长文本方面，0605 在 128k 长度上的表现同样是几家中第一，并且还独一家支持 1M 长度。

0605 拉开差距最明显的则是事实性，在 FACTS Grounding 测试中领先第二名超过 10 个百分点。

至于价格，Gemini 比 OpenAI o3、Claude 4 Opus 和 Grok 3 都要来得便宜------

输入 Token 价格是 o3 的 1/8，Claude 4 Opus 的不到 1/10、Grok 3 的不到一半，输出 Token 则是 o3 的 1/4、Claude 的 13%、Grok 的 2/3。

在大模型竞技场上，0605 则位列总分和所有子榜单的第一名。

除了各种基于文本的能力，0605 的视觉能力也拿下第一名，上个月的 0506 和 OpenAI 的 o3 与之并列。

最后在 WebDev 上，0605 也让 Gemini 重新回到了榜一的位置。

此外，谷歌表示 0605 还基于用户对之前版本的反馈，对输出风格和结构进行了改进。

有 DeepMind 员工称，照这样下去，最多两年就能在所有 Benchmark 都取得满分。

另外在新版发布之前，Gemini 就已经受到了越来越多的青睐------

据 Similarweb 统计，从 4 月末到 5 月开始，Gemini APP 在安卓应用市场的下载量超过了 ChatGPT。

新模型上线以后，网友们也纷纷开始了体验，有人表示测试了 21 份 pdf 文档，Gemini 总结得又快又好。

在 DeepMind 内部，也有人用 0605 尝试了图标转绘，并对其表现印象深刻。

当然也有人认为，0605 的表现确实很好，但是不如 Claude 4 Opus。

但还有持续关注模型表现的网友发现，0605 的一些指标相比早期的 0325，反而出现了退步。

其中包括编程的 LiveCodeBench 和 Swe-Bench，但退步最明显的要属长文本（MRCR）。

这位网友表示，实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是，0605 的安全性也出现了问题，官宣之后仅两个小时，就被宣布越狱攻击成功。

具体过程就不展示了，但结果是经过提示词攻击，Gemini 2.5 Pro 0605 一边 "拒绝" 一边将炸药和毒品的制作方式脱口而出......

不知道谷歌工程师或作何感想。

那么，你认为谷歌这次发布的模型表现怎么样呢？

参考链接：

--- 完 ---