DeepSeek 逼出谷歌新推理模型：40 分优势超 GPT4.5 登顶竞技场，支持原生多模态，但依然败给了 “竹竿问题”

量子位2025-03-26 17:29

又双叒，抢在 OpenAI 直播之前，谷歌 Gemini 2.5 系列来了。

首个版本 Pro Experimental 一登场就抢下大模型竞技场第一名，并且整整比 GPT-4.5 高出 40 分！

Gemini 2.5 同样是推理模型，用 Jeff Dean 的说法是：

这是我们最智能的模型，具有令人印象深刻的高级推理和编码能力。

Be like，给出一段提示词：

帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用 p5js，不要用 HTML。我喜欢像素风格的恐龙和有趣的背景。

1 分钟左右，就能得到：

谷歌 "最先进复杂任务模型"

谷歌介绍，相较于 Gemini 2.0 Flash Thinking 这个谷歌首个推理模型，Gemini 2.5 在基础模型和后训练技术上都有改进。

不仅是在大模型竞技场上一举拿下高分，在各种推理、数学、科学、编程基准上，Gemini 2.5 Pro 都表现出色，属于是编程能跟 Claude 3.7 Sonnet 掰手腕，数学能跟 Grok 3 相媲美。

更详细测试结果看这里：

Gemini 2.5 Pro 的上下文窗口是 1M tokens，并且支持原生多模态：可以理解庞大数据集并处理来自不同信息源的复杂问题，包括文本、音频、图像、视频，甚至是整个代码库。

在推理能力之外，谷歌官方还强调了一把 Gemini 2.5 Pro 的编程性能：

2.5 pro 擅长创造视觉上引人注目的 Web 应用程序和智能体代码。

谷歌 DeepMind 研究员们也释出了更多案例，比如把 "六边形内旋转小球" 这事整得更加酷炫：

p.s. 距离谷歌上新 Gemini 2.0 家族，也不过一个多月时间，怕不是让 DeepSeek 给逼急了（doge）。

目前，Gemini 2.5 Pro 已经面向 Gemini Advanced 付费用户开放，开放人员也可以在 Google AI Studio 中试用。谷歌表示，未来几周内还将在 Vertex AI 上推出该模型。

不过，当我们拿最新大模型难题 "竹竿问题" 测试 Gemini 2.5 Pro 时，它并没能顺利通关。

欢迎在评论区留下你的想法！

--- 完 ---