又双叒,抢在 OpenAI 直播之前,谷歌 Gemini 2.5 系列来了。
首个版本 Pro Experimental 一登场就抢下大模型竞技场第一名,并且整整比 GPT-4.5 高出 40 分!
Gemini 2.5 同样是推理模型,用 Jeff Dean 的说法是:
这是我们最智能的模型,具有令人印象深刻的高级推理和编码能力。
Be like,给出一段提示词:
帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用 p5js,不要用 HTML。我喜欢像素风格的恐龙和有趣的背景。
1 分钟左右,就能得到:
谷歌 "最先进复杂任务模型"
谷歌介绍,相较于 Gemini 2.0 Flash Thinking 这个谷歌首个推理模型,Gemini 2.5 在基础模型和后训练技术上都有改进。
不仅是在大模型竞技场上一举拿下高分,在各种推理、数学、科学、编程基准上,Gemini 2.5 Pro 都表现出色,属于是编程能跟 Claude 3.7 Sonnet 掰手腕,数学能跟 Grok 3 相媲美。
更详细测试结果看这里:
Gemini 2.5 Pro 的上下文窗口是 1M tokens,并且支持原生多模态:可以理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频,甚至是整个代码库。
在推理能力之外,谷歌官方还强调了一把 Gemini 2.5 Pro 的编程性能:
2.5 pro 擅长创造视觉上引人注目的 Web 应用程序和智能体代码。
谷歌 DeepMind 研究员们也释出了更多案例,比如把 "六边形内旋转小球" 这事整得更加酷炫:
p.s. 距离谷歌上新 Gemini 2.0 家族,也不过一个多月时间,怕不是让 DeepSeek 给逼急了(doge)。
目前,Gemini 2.5 Pro 已经面向 Gemini Advanced 付费用户开放,开放人员也可以在 Google AI Studio 中试用。谷歌表示,未来几周内还将在 Vertex AI 上推出该模型。
不过,当我们拿最新大模型难题 "竹竿问题" 测试 Gemini 2.5 Pro 时,它并没能顺利通关。
试玩地址:
aistudio.google.com/app/prompts...
参考链接:
blog.google/technology/...
欢迎在评论区留下你的想法!
--- 完 ---