Gemini 新版蝉联竞技场榜一,但刚发布就被越狱了

没等来 o3 Pro 和 GPT-5,隔壁谷歌的 Gemini 先更新了。

深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro 再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼,在超难数据集 "人类最后的考试" 中以 21.6% 的成绩超过了 o3。

在大模型竞技场上,新版 Gemini 也超越了自己,Elo 评分比上个月的版本提升了 24 分。

谷歌 CEO 劈柴哥还发了一张 AI 合成的狮子照片,配文一个 "Gemini",暗示了新模型的实力。

谷歌 AI studio 产品负责人 Logan 表示,这次的更新预计会成为 Gemini 2.5 Pro 的长期稳定版本。

有意思的是,发布之大概 10 多个小时,Logan 就进行了一波剧透,发了一条只有 Gemini 这一个词的推文。

谷歌表示,Gemini APP 中的模型将在今日更新为该版本,开发者版本也已在谷歌 AI Studio 和 Vertex AI 当中上新。

Gemini 超越 Gemini,登顶大模型竞技场

谷歌介绍,这次的 0605 版本基于 I/O 大会上展示的 0506 版本构建,预计将成为 Gemini 2.5 Pro 的正式稳定版。

Gemini 2.5 Pro 最早是在 3 月 25 日发布了实验版本,4 月 4 日更新了公开预览版,代号仍然是 0325,再然后就是上个月的 0506。

在 "人类最后的考试" 当中,0605 的成绩达到了 21.6%,领先了 o3 1.3 个百分点,超过了 Claude 4 Opus 的两倍。

这个数据集由 1000 多名学者共同构建,包含 3000 多道试题,覆盖各种学科,发布时没有任何模型准确率超过 10%。

另外在 GPQA 上,0605 的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比 Claude 和 Grok 多次尝试还要高。

数学竞赛和 LiveCodeBench 编程上,0605 表现稍逊于 OpenAI 家的模型,但 0605 在代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605 在 128k 长度上的表现同样是几家中第一,并且还独一家支持 1M 长度。

0605 拉开差距最明显的则是事实性,在 FACTS Grounding 测试中领先第二名超过 10 个百分点。

至于价格,Gemini 比 OpenAI o3、Claude 4 Opus 和 Grok 3 都要来得便宜------

输入 Token 价格是 o3 的 1/8,Claude 4 Opus 的不到 1/10、Grok 3 的不到一半,输出 Token 则是 o3 的 1/4、Claude 的 13%、Grok 的 2/3。

在大模型竞技场上,0605 则位列总分和所有子榜单的第一名。

除了各种基于文本的能力,0605 的视觉能力也拿下第一名,上个月的 0506 和 OpenAI 的 o3 与之并列。

最后在 WebDev 上,0605 也让 Gemini 重新回到了榜一的位置。

此外,谷歌表示 0605 还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有 DeepMind 员工称,照这样下去,最多两年就能在所有 Benchmark 都取得满分。

另外在新版发布之前,Gemini 就已经受到了越来越多的青睐------

据 Similarweb 统计,从 4 月末到 5 月开始,Gemini APP 在安卓应用市场的下载量超过了 ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了 21 份 pdf 文档,Gemini 总结得又快又好。

在 DeepMind 内部,也有人用 0605 尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605 的表现确实很好,但是不如 Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605 的一些指标相比早期的 0325,反而出现了退步。

其中包括编程的 LiveCodeBench 和 Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605 的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605 一边 "拒绝" 一边将炸药和毒品的制作方式脱口而出......

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

1\][blog.google/products/ge...](https://link.juejin.cn?target=https%3A%2F%2Fblog.google%2Fproducts%2Fgemini%2Fgemini-2-5-pro-latest-preview%2F "https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/") \[2\][x.com/GoogleDeepM...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FGoogleDeepMind%2Fstatus%2F1930656243346976925 "https://x.com/GoogleDeepMind/status/1930656243346976925") \[3\][x.com/OfficialLog...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOfficialLoganK%2Fstatus%2F1930657743251349854 "https://x.com/OfficialLoganK/status/1930657743251349854") \[4\][x.com/elder_plini...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Felder_plinius%2Fstatus%2F1930686486644511089 "https://x.com/elder_plinius/status/1930686486644511089") --- **完** ---

相关推荐
怕浪猫26 分钟前
决定命运的,从来不是市场,而是你看待市场的方式
aigc·ai编程
小碗细面1 小时前
13种Agent、129套设计系统:Open Design 开源项目完全指南
aigc·ai编程
挖AI金矿3 小时前
(十五)MCP协议与插件生态 — 扩展无限可能
开源·个人开发·ai编程·hermes agent·爱马仕agent
挖AI金矿4 小时前
(十三)多Agent协同
自动化·个人开发·ai编程·hermes agent·爱马仕agent
追逐时光者5 小时前
白嫖小米 MiMo 百万亿 Token,附 Claude Code 配置全流程!
ai编程
Techlin6 小时前
Claude Opus 4.7 编程实战:怎么用最新旗舰模型写复杂业务代码?完整配置 + 踩坑记录
ai编程·claude
DogDaoDao6 小时前
【GitHub】andrej-karpathy-skills:让 AI 编程助手告别三大通病
人工智能·深度学习·程序员·大模型·github·ai编程·andrej-karpathy
程序员鱼皮8 小时前
狂烧 40 亿 tokens,公开我的 7 套 AI 工作流!
计算机·ai·程序员·编程·ai编程
Hello_Embed9 小时前
Windows 安装 Claude Code 并接入 模型
windows·笔记·ai编程
sunneo9 小时前
专栏D-团队与组织-03-产品文化
人工智能·产品运营·aigc·产品经理·ai编程