AI争霸新拐点：谷歌靠Gemini 2.5能翻盘吗？

IQ 测试结果

这次感觉不太一样 ------ 看起来不像是 Google 又一次失败的发布。我不是想贬低 DeepMind 团队之前的努力，但说实话，他们过去确实没总是达到用户的预期。

就在几周前，Google 发布了 Gemini 2.5 Pro，整个互联网都热闹了起来。也许没有 DeepSeek 或 GPT-4o 那样炸裂，但我得承认，自从 Google 推出 DeepResearch 后，后续的更新一个比一个给力 ------ 的确值得一提。

在我前期用提示词测试的很多案例中，结果都出奇地好。很自然，我也忍不住跟别的 AI 比较起来。

有个让我印象特别深的例子，是来自日本的一家医院，用的就是同一套 AI 技术，把医生的笔记转录并总结出来，让护士的文书工作量减少了 42%，也大大缓解了他们的压力。

还有在实验室评估中，Gemini 2.5 居然能解决以前模型都卡住的博士级科学和数学题。

Google 一直都在 AI 竞赛里 ------ 常常是在幕后，有时候也被人低估。但现在，似乎他们的高光时刻终于来了。

不过，说到底，光靠我自己的看法 ------ 或者对这个新模型的激动 ------ 还不够，我们应该仔细看看 Gemini 2.5 真的配得上这些夸赞吗？更重要的是，它能成为我们日常真正在用的工具吗？换句话说，它除了写封邮件、推荐个饭店，能不能做得更多？

超越 GPT-4 和 Claude：Gemini 2.5 的独特之处？

Google 的 Gemini 模型家族是直接对标 GPT-4 而来的，而 2.5 Pro 这个版本，则把这场竞争提升到了新高度。

Gemini 2.5 Pro 之所以特别，是因为它能深入地拆解问题，而不是简单复述训练数据。Google 说这是一个"会思考的模型"，会一步一步地推理、解决难题，再给出最终答案。

"一份分析指出，和 GPT-4、Claude 3 那种靠模式识别生成回应的方式不同，Gemini 2.5 声称自己是有条理地'思考'之后再答题。"

在实际的基准测试中，Gemini 2.5 Pro 在编程、数学、科学这些领域表现超越了 GPT-4、Anthropic 的 Claude 和其他顶级模型 ------ 在像 GPQA 这样的评测中拿下了第一。

Gemini 2.5 Pro 另一个领先点在于它的记忆力。

GPT-4 最长的上下文窗口也就大约 128,000 个 token，Claude 3 差不多 200,000。而 Gemini 2.5 直接甩开它们，提供了惊人的一百万个 token 的上下文窗口 ------ 还有计划要翻倍到两百万。

这意味着啥？就是说它能处理整本书、完整代码库、或超大数据集都没问题，不会丢线索。不用再把输入分段，也不用反复提醒 AI 前面讲过啥 ------ Gemini 能全程记得住。

有个演示里，Gemini 2.5 成功分析了一份 500 页的 AI 指数报告，还能跨页面比对图表，回答复杂问题。

从本质上讲，Gemini 2.5 是为多模态设计的。GPT-4 和其他模型经常需要不同系统来处理不同类型输入，而 Gemini 2.5 Pro 是个统一的模型，能同时处理文本、图片、音频、视频，甚至是代码。

相比之下，OpenAI 的 GPT-4 图像理解功能有限，要靠插件，而且图像生成是交给 DALL·E 这个单独模型处理的。

话虽如此，OpenAI 和 Anthropic 也不是坐着不动 ------ GPT-4 推出了 GPT-4 Turbo，Claude 3 的上下文窗口和能力也在不断升级。

但截至 2025 年初，Gemini 2.5 Pro 还是有足够理由被称作目前最先进的模型。它一上线就在 LM Arena 榜单上高居榜首，领先幅度很大。

Gemini 的强项在于处理复杂、智力要求高的任务 ------ 它能多步骤推理、处理代码、轻松应对多模态输入。

Gemini 2.5 实战表现

光有再多基准测试也没用，要是 Gemini 2.5 Pro 解决不了现实中的问题 ------ 或至少接近解决。

在企业办公室、内容工作室，Gemini 2.5 已经被证明是个有价值的工具了。比如 FOX Sports 的团队就用了 Gemini 来整理他们海量的视频档案库 ------ 差不多有 200 万个剪辑 ------ 用来找关键精彩片段或特定时刻。以前是个又慢又繁琐的人工活儿，现在只需要输入自然语言提问。多亏 Gemini 懂得视频的内容和上下文，员工能立刻找出他们想要的画面。

广告圈那边，WPP 广告公司用 Gemini 来生成活动内容。这 AI 接收了 WPP 的品牌规范训练 ------ 包括语气、配色、字体、还有过往的案例 ------ 然后被要求写出社媒广告文案。

结果怎么样？

Gemini 不仅写出了广告文案，连样图都能自动生成，而且跟品牌调性高度一致。这些内容看上去、听上去都像 WPP 做的，而且几乎没怎么需要人工干预。初步反馈显示，这家广告公司用它能大幅提速，实现个性化营销。

开发者们也在实打实地用 Gemini 2.5 Pro ------ 不只是原型阶段，而是在真正的生产环境中。

举个例子，有家物流公司把 Gemini 集成进了路线优化软件，让它智能重新规划送货路线。这个 2025 年 3 月启动的试点非常成功：油耗降低了 15%，准时送达提升了 22%，预计每年能节省 350 万美元，全靠 Gemini 的路线建议。

还有开发者用 Gemini 从一句简单描述出发，直接构建完整的网页应用原型。据一位 AI 专家说，很多人现在就是用一句提示，就能"直接创建完整网页应用"。它还被用来做游戏、设计网站、写营销文案、自动化数据流程 ------ 只要用自然语言描述想要的结果就行。

学术和科研界也看上了 Gemini 的潜力。Google 推出了一个叫 Gemini Deep Research 的工具，用的就是 2.5 Pro 模型，它能扫遍全网和学术数据库，为某个主题整理出详尽的研究报告。

在科研质量评估中表现亮眼 ------ 甚至还在一个叫"人类最终考试"的超难测试里拿了高分 ------ Gemini 2.5 不再只是个编程助理或者聊天机器人。它正逐渐变成一个能帮忙生成新洞见的工具，越来越像个真正的研究伙伴。

最后的想法

综上所述 ------ 再加上最新 IQ 测试排名来看 ------ 目前 Google 靠 Gemini 2.5 暂时领先。但故事还远没结束。

值得一提的是，就连 Gemini 的创造者们，也一直强调它是用来增强人类能力的工具，不是要取代人类（虽然这句话我们已经听过无数次了）。

真正的挑战是，我们怎么把这么强大的技术，融入社会最重要的系统 ------ 比如教育、科研、还有伦理决策。

最后，最关键的答案，不会来自 Gemini 本身，而取决于我们在这个 AI 时代做出的选择。火已经点燃 ------ 接下来怎么烧，就看我们了。