Gemini 新版蝉联竞技场榜一,但刚发布就被越狱了

没等来 o3 Pro 和 GPT-5,隔壁谷歌的 Gemini 先更新了。

深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro 再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼,在超难数据集 "人类最后的考试" 中以 21.6% 的成绩超过了 o3。

在大模型竞技场上,新版 Gemini 也超越了自己,Elo 评分比上个月的版本提升了 24 分。

谷歌 CEO 劈柴哥还发了一张 AI 合成的狮子照片,配文一个 "Gemini",暗示了新模型的实力。

谷歌 AI studio 产品负责人 Logan 表示,这次的更新预计会成为 Gemini 2.5 Pro 的长期稳定版本。

有意思的是,发布之大概 10 多个小时,Logan 就进行了一波剧透,发了一条只有 Gemini 这一个词的推文。

谷歌表示,Gemini APP 中的模型将在今日更新为该版本,开发者版本也已在谷歌 AI Studio 和 Vertex AI 当中上新。

Gemini 超越 Gemini,登顶大模型竞技场

谷歌介绍,这次的 0605 版本基于 I/O 大会上展示的 0506 版本构建,预计将成为 Gemini 2.5 Pro 的正式稳定版。

Gemini 2.5 Pro 最早是在 3 月 25 日发布了实验版本,4 月 4 日更新了公开预览版,代号仍然是 0325,再然后就是上个月的 0506。

在 "人类最后的考试" 当中,0605 的成绩达到了 21.6%,领先了 o3 1.3 个百分点,超过了 Claude 4 Opus 的两倍。

这个数据集由 1000 多名学者共同构建,包含 3000 多道试题,覆盖各种学科,发布时没有任何模型准确率超过 10%。

另外在 GPQA 上,0605 的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比 Claude 和 Grok 多次尝试还要高。

数学竞赛和 LiveCodeBench 编程上,0605 表现稍逊于 OpenAI 家的模型,但 0605 在代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605 在 128k 长度上的表现同样是几家中第一,并且还独一家支持 1M 长度。

0605 拉开差距最明显的则是事实性,在 FACTS Grounding 测试中领先第二名超过 10 个百分点。

至于价格,Gemini 比 OpenAI o3、Claude 4 Opus 和 Grok 3 都要来得便宜------

输入 Token 价格是 o3 的 1/8,Claude 4 Opus 的不到 1/10、Grok 3 的不到一半,输出 Token 则是 o3 的 1/4、Claude 的 13%、Grok 的 2/3。

在大模型竞技场上,0605 则位列总分和所有子榜单的第一名。

除了各种基于文本的能力,0605 的视觉能力也拿下第一名,上个月的 0506 和 OpenAI 的 o3 与之并列。

最后在 WebDev 上,0605 也让 Gemini 重新回到了榜一的位置。

此外,谷歌表示 0605 还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有 DeepMind 员工称,照这样下去,最多两年就能在所有 Benchmark 都取得满分。

另外在新版发布之前,Gemini 就已经受到了越来越多的青睐------

据 Similarweb 统计,从 4 月末到 5 月开始,Gemini APP 在安卓应用市场的下载量超过了 ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了 21 份 pdf 文档,Gemini 总结得又快又好。

在 DeepMind 内部,也有人用 0605 尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605 的表现确实很好,但是不如 Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605 的一些指标相比早期的 0325,反而出现了退步。

其中包括编程的 LiveCodeBench 和 Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605 的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605 一边 "拒绝" 一边将炸药和毒品的制作方式脱口而出......

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

1\][blog.google/products/ge...](https://link.juejin.cn?target=https%3A%2F%2Fblog.google%2Fproducts%2Fgemini%2Fgemini-2-5-pro-latest-preview%2F "https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/") \[2\][x.com/GoogleDeepM...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FGoogleDeepMind%2Fstatus%2F1930656243346976925 "https://x.com/GoogleDeepMind/status/1930656243346976925") \[3\][x.com/OfficialLog...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOfficialLoganK%2Fstatus%2F1930657743251349854 "https://x.com/OfficialLoganK/status/1930657743251349854") \[4\][x.com/elder_plini...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Felder_plinius%2Fstatus%2F1930686486644511089 "https://x.com/elder_plinius/status/1930686486644511089") --- **完** ---

相关推荐
张鑫旭1 分钟前
AI时代2025年下半年学的这些Web前端特性有没有用?
前端·ai编程
万少2 小时前
告别素材焦虑!用 AI 一键生成鸿蒙项目图片素材
ai编程·harmonyos
闲看云起3 小时前
大模型应用开发框架全景图
人工智能·语言模型·ai编程
FreeCode6 小时前
Agentic AI系统开发:智能体工程(Agent Engineering)的概念与方法
langchain·agent·ai编程
302AI6 小时前
大白话聊一聊:Skills就是给AI用的APP
agent·ai编程·claude
wangruofeng6 小时前
Flutter AI Coding 实战手册:可落地场景拆解 + 代码级实操方案
aigc·ai编程·cursor
程序员Agions7 小时前
AI 写的代码有 48% 在"胡说八道":那些你 npm install 的包,可能根本不存在
前端·ai编程
AI架构师之家7 小时前
一文分清机器学习、深度学习和各类 AI 工具的关系:心法与招式的区别
后端·ai编程
黄林晴7 小时前
这个官方插件能让你的"屎山代码"焕然一新
aigc·openai·ai编程
前端小菜袅8 小时前
AI时代,新的技术学习方式
学习·ai编程