Gemini 新版蝉联竞技场榜一,但刚发布就被越狱了

没等来 o3 Pro 和 GPT-5,隔壁谷歌的 Gemini 先更新了。

深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro 再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼,在超难数据集 "人类最后的考试" 中以 21.6% 的成绩超过了 o3。

在大模型竞技场上,新版 Gemini 也超越了自己,Elo 评分比上个月的版本提升了 24 分。

谷歌 CEO 劈柴哥还发了一张 AI 合成的狮子照片,配文一个 "Gemini",暗示了新模型的实力。

谷歌 AI studio 产品负责人 Logan 表示,这次的更新预计会成为 Gemini 2.5 Pro 的长期稳定版本。

有意思的是,发布之大概 10 多个小时,Logan 就进行了一波剧透,发了一条只有 Gemini 这一个词的推文。

谷歌表示,Gemini APP 中的模型将在今日更新为该版本,开发者版本也已在谷歌 AI Studio 和 Vertex AI 当中上新。

Gemini 超越 Gemini,登顶大模型竞技场

谷歌介绍,这次的 0605 版本基于 I/O 大会上展示的 0506 版本构建,预计将成为 Gemini 2.5 Pro 的正式稳定版。

Gemini 2.5 Pro 最早是在 3 月 25 日发布了实验版本,4 月 4 日更新了公开预览版,代号仍然是 0325,再然后就是上个月的 0506。

在 "人类最后的考试" 当中,0605 的成绩达到了 21.6%,领先了 o3 1.3 个百分点,超过了 Claude 4 Opus 的两倍。

这个数据集由 1000 多名学者共同构建,包含 3000 多道试题,覆盖各种学科,发布时没有任何模型准确率超过 10%。

另外在 GPQA 上,0605 的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比 Claude 和 Grok 多次尝试还要高。

数学竞赛和 LiveCodeBench 编程上,0605 表现稍逊于 OpenAI 家的模型,但 0605 在代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605 在 128k 长度上的表现同样是几家中第一,并且还独一家支持 1M 长度。

0605 拉开差距最明显的则是事实性,在 FACTS Grounding 测试中领先第二名超过 10 个百分点。

至于价格,Gemini 比 OpenAI o3、Claude 4 Opus 和 Grok 3 都要来得便宜------

输入 Token 价格是 o3 的 1/8,Claude 4 Opus 的不到 1/10、Grok 3 的不到一半,输出 Token 则是 o3 的 1/4、Claude 的 13%、Grok 的 2/3。

在大模型竞技场上,0605 则位列总分和所有子榜单的第一名。

除了各种基于文本的能力,0605 的视觉能力也拿下第一名,上个月的 0506 和 OpenAI 的 o3 与之并列。

最后在 WebDev 上,0605 也让 Gemini 重新回到了榜一的位置。

此外,谷歌表示 0605 还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有 DeepMind 员工称,照这样下去,最多两年就能在所有 Benchmark 都取得满分。

另外在新版发布之前,Gemini 就已经受到了越来越多的青睐------

据 Similarweb 统计,从 4 月末到 5 月开始,Gemini APP 在安卓应用市场的下载量超过了 ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了 21 份 pdf 文档,Gemini 总结得又快又好。

在 DeepMind 内部,也有人用 0605 尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605 的表现确实很好,但是不如 Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605 的一些指标相比早期的 0325,反而出现了退步。

其中包括编程的 LiveCodeBench 和 Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605 的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605 一边 "拒绝" 一边将炸药和毒品的制作方式脱口而出......

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

1blog.google/products/ge...

2x.com/GoogleDeepM...

3x.com/OfficialLog...

4x.com/elder_plini...

--- ---

相关推荐
Are_You_Okkk_6 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
Peter·Pan爱编程10 小时前
14. Lambda 表达式:随手可写的函数对象
c++·算法·ai编程
百珏11 小时前
个人理解的AI Code Review 架构的三代演进
架构·aigc·ai编程
人月神话Lee11 小时前
【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来
ios·ai编程·图像识别
DO_Community11 小时前
为AI编程降本!OpenCode 原生支持 DigitalOcean 推理路由器
智能路由器·ai编程·claude
麦哲思科技任甲林12 小时前
全变更蒸馏:让AI编程成为一个可进化的系统
人工智能·ai编程·蒸馏·skills·harness工程·回顾
潘锦12 小时前
从带团队到管 AI Coding,方法其实是相通的
ai编程
潘锦12 小时前
AI Coding 时代如何有效度量研发效能
ai编程
名不经传的养虾人12 小时前
从0到1:企业级AI项目迭代日记 Vol.36|临时方案下线,网关区分负载,用量穿透链路——这一周全是“归位”
人工智能·ai编程·ai工作流·企业ai·多agent协作
Bigger12 小时前
mini-cc 的 MCP 协议:给 AI 装个 USB-C 接口
人工智能·ai编程·claude