
在AI圈里,大家都有个不成文的规矩:三个月一小改,半年一大改。这就像手机厂商的节奏,给用户和开发者一个喘息的机会。
但谷歌偏偏不按套路出牌!
看看Gemini 2.5 Pro的更新历程:
- 3月26日:发布Gemini 2.5 Pro
- 5月6日:推出I/O Edition,具体版本号0506,编程能力大升级
- 5月20日:0506全面升级,推出Gemini 2.5 Flash Preview 0520
- 6月5日:又来了个Gemini 2.5 Pro Preview 0605版本
两个"倒反天罡"的版本号,很有意思,感觉绝非偶然,而是谷歌精心策划的一次市场营销,就是想"卷死你"。
国内直接使用Gemini 2.5 Pro 0605
为了让国内的小伙伴们能第一时间真真正正体验使用到最新版本Gemini 2.5 Pro Preview 0605。
吒哥已经将Gemini 2.5 Pro 0605集成到了AI系统。

无需魔法、不需要Google 账号、不需要绑定信用卡、不需要20美元/月。
使用地址:www.nezhasoft.cloud
还包含了ChatGPT4o、o4-mini、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、DeepSeek R1 0528、Grok3 thinking等模型。
私信哪吒,可以试用三天,上面所有模型可用。
综合能力刷新SOTA
在写作、编程、数学、推理、科研等基准测试中,0605模型全部刷新SOTA,完全碾压 o3、Claude Opus 4、DeepSeek R1 02528。

主要改进
1、修复了0506版本在非编码任务上的"回退问题"。
2、新功能:思考预算(Thinking Budgets)
开发者可以通过思考预算功能更好地控制成本和延迟,最高达32k,改进了函数调用等功能。

3、性能大幅提升
- LMArena 上 Elo 分数提升 24 分达到 1470,保持榜首地位
- WebDevArena 上 Elo 分数跃升 35 分达到 1443,领先所有模型
在 Aider Polyglot 等高难度编程基准测试中继续领先,前端和 UI 开发能力显著改进,尤其擅长构建美观的交互式网页应用。
在 GPQA 和 HLE(人类最后的考试)等高难度基准测试中表现顶尖。数学、科学、知识和推理能力全面提升。
三、一句话搞定一个需求
1、写作
全国一:
阅读下面的材料,根据要求写作。(60分)
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。 ------老舍《鼓书艺人》(见全国一卷阅读II)
假如我是一只鸟,我也应该用嘶哑的喉咙歌唱 ------艾青《我爱这土地》
我要以带血的手和你们一一拥抱,因为一个民族已经起来 ------穆旦《赞美》
以上材料引发了你怎样的联想和思考?
请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

你觉得这个水平能得多少分?有兴趣的可以在评论区留言探讨。

AI仅仅是学习、工作的辅助工具,无不良引导。

小球弹跳测试
Arena-Hard小球弹跳测试,它用于评估大模型在推理、计算、代码等多个方面的综合能力。
使用 p5.js创建 12 个彩色球在三个旋转的嵌套的分别有一个缺口的六边形内弹跳的效果,旋转速度较快,考虑重力,弹性,摩擦和碰撞,符合物理自然规律。

官网Demo
通过Three.js创建出3D DNA模型,效果非常逼真。

横向对比四大模型
我们通过Gemini 2.5 Pro 0605横向对比以下时下最火的四大模型Gemini 2.5 Pro 0605、o3、Claude Opus 4、DeepSeek R1 0528,并画一个柱状图,做一个小总结。




最新模型Gemini 2.5 Pro 0605的作图能力,太强了,完全可以用于技术文章、论文、PPT配图。
更重要的是,可以根据具体内容,私人定制。画好之后,还可以自己修改代码,对图表进行微调。
得出结论:
- 追求综合性价比选 Gemini 2.5 Pro 0605
- 需要顶尖写作编程能力选 Claude Opus 4
- 攻克科研推理难题选 o3
- 严格控制成本则首选 DeepSeek R1 0528