谷歌发布Gemini 2.5 Pro,这次直接登顶!附一手实测结果

AI圈最狗血的爱情故事莫过于Google和OpenAI的狙击战了!

当今日OpenAI准备开直播宣布全量开放GPT-4o图像生成能力时,Google抢先一步,发布了Gemini 2.5 Pro Experimental。

这款模型可不是为了应付OpenAI急匆匆就推出一个模型来凑数的,它的各项能力全部拉满了。

Google 的CEO更是表示Gemini 2.5 Pro Experimental是至今为止最智能的模型,事实也的确如此。

编辑

Gemini 2.5 Pro Experimental有太多第一的成绩了,在这里就不给大家一一念。

给大家分享几个我个人比较关心的几个成绩单。

在最新的Arena排行榜中,Gemini 2.5 Pro以绝对的优势拿下第一,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!

编辑

可能还有很多小伙伴不了解Arena这个排行榜,给大家简单科普一下。

Arena 是一个由 LMSYS Org 创建的 AI 大语言模型排行榜,主要用于评估和比较不同 AI 聊天机器人的性能。

借鉴了国际象棋中的 Elo 评分机制,用户对不同模型回答同一问题的表现进行投票,获胜的模型会获得相应的分数,分数越高,模型表现越好。

换句话说,它的评分机制是采用匿名投票的方式,哪个模型回答的效果更好,它的排名就更高。

如上图所示:Gemini 2.5 Pro Experimental是现阶段的第一!

同时在网页开发领域,它也取得有史以来最好的最好成绩,超越Claude 3.5、DeepSeek R1等模型,获得网页开发竞技场(WebDev Arena)第二名的成绩。

编辑

和其他编程排行榜动不动就超越Claude 3.7,这个成绩就显得非常真实。

此外,Gemini 2.5 Pro Experimental还是一个多模态模型,并成功登顶了视觉竞技场(Vision Arena)排行榜榜首!

编辑

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。

附上免费使用地址:aistudio.google.com/prompts/new...

编辑

那它的实际效果到底如何?我们来测试一下,毕竟排行榜的成绩还不如测试来得实在。

让Gemini2.5编写一个 p5.js 程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须真实地反弹到旋转的墙壁上,添加滑块来调整参数。

编辑

看起来是不是还不错,来一个难度高的,并它和o1 Pro对比一下,看看谁得编程能力更强。

​编辑

整体而言,两个都不错,但 o1-pro 呈现的效果会更好一些,而且Gemini 2.5生成的蓝色小球掉出来了......

再来一道最近搜刮到的模型难题,之前试了一下,发现DeepSeek R1、混元 T1等模型都没有做出来,看看它们两是否可以做出来。

测试题:一根7米的棍子是否能通过长三米宽三米的门。

编辑

Gemini 2.5 Pro

编辑

o1 Pro

这两款模型全部回答失败,仅仅只是把这道题当作是一道二维空间,而没有考虑到三维空间。

再来看看它们的数学能力如何,上传一道高三摸底考试数学题。

编辑

先公布答案,答案是「B、C、D」

编辑

Gemini 2.5 Pro

编辑

o1 Pro

Gemini 2.5 Pro回答正确,反观o1 Pro回答错误,看来Gemini 2.5 Pro的推理能力真不错。

虽然此次测评没有基准测试那么全,但也可以看到Gemini 2.5 Pro的强大之处,如果大家感兴趣,可以亲自去体验一下,毕竟是免费的。

相关阅读:

国内用户如何订阅Claude

想要订阅海外产品,如何解决支付难题​​​​​​​

相关推荐
Omics Pro1 天前
首款多模态生物推理大语言模型
人工智能·算法·语言模型·自然语言处理·数据挖掘·数据分析·aigc
AI精钢1 天前
什么是面向 Agent 的 LLM?从 Qwen3.6-Plus 看大模型的新分水岭
网络·数据库·人工智能·云原生·aigc
AI精钢1 天前
从 Prompt Engineering 到 Fine-Tuning:LLM 应用落地的理性决策框架
大数据·人工智能·云原生·prompt·aigc
搏博1 天前
文献关系可视化与智能发现工具Research Rabbit深度使用教程(基于2026最新版)
ai·aigc·ai写作
AI先驱体验官1 天前
数字人技术正在改变企业服务:一场静悄悄的效率革命
大数据·运维·人工智能·重构·aigc
KC2701 天前
OpenAkita 深度解析:开源多Agent协作框架的实战指南
人工智能·aigc·ai编程
春末的南方城市1 天前
CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam:无4D数据训练下实现单视频精准相机控制,让短视频创作者轻松掌控“电影级”运镜。
人工智能·深度学习·数码相机·机器学习·计算机视觉·aigc
亿牛云爬虫专家2 天前
AIGC数据引擎的基石:图库抓取架构从单机到云原生的演进与实战
云原生·aigc·爬虫代理·自动化运维·数据抓取·图库·数据引擎
最贪吃的虎2 天前
我的第一个 RAG 程序:从 0 到 1,用 PDF 搭一个最小可运行的知识库问答系统
人工智能·python·算法·机器学习·aigc·embedding·llama