谷歌I/O解读：小模型反杀旗舰，3.5 Flash凭什么全面超越3.1 Pro？

凌晨，谷歌开完了今年的I/O大会。

照例，信息量巨大。模型、产品、Agent、搜索、硬件，加在一起十几项。Pichai开场就说，过去十年谷歌一直在往AI转，现在是时候让大家看看成果了。

这篇文章，挑几个最重要的，挨个说说。

一、Gemini 3.5 Flash：小模型反杀旗舰，今晚真正的主角

今晚发布的几乎所有产品，底座都换成了这个模型。

先说背景。Gemini的产品线一直分两条：Flash主打快和便宜，Pro定位旗舰最强。过去的逻辑是，Flash牺牲一些能力换速度和成本，Pro不计代价追极致性能。

结果这次3.5 Flash直接把上一代旗舰3.1 Pro给超了。

成绩单：

代码（Terminal-Bench 2.1）：76.2%，3.1 Pro是70.3%
Agent任务（GDPval-AA）：1656 Elo，3.1 Pro是1314 Elo，差了三百多分
工具调用（MCP Atlas）：83.6%，3.1 Pro是73.9%
多模态理解（MMMU-Pro）：81.2%
博士级科学推理（GPQA Diamond）：90.4%
代码修复（SWE-bench Verified）：78%

特别提一下多模态理解这个分数，81.2%，全球第一。

多模态这块，还得是Gemini。

速度方面，Pichai原话：输出速度是其他前沿模型的4倍，每秒289个token。

而且谷歌内部还做了一个12倍速的优化版本，同等质量下推理速度再翻三倍。

价格上，比上代旗舰强，还比上代旗舰便宜：

3.5 Flash：输入 $1.50 / 输出 1.50 / 输出$ 1.50/输出9.00（每百万token）
3.1 Pro（上代旗舰）：输入 $2.00 / 输出 2.00 / 输出$ 2.00/输出12.00
Claude Sonnet 4.6：输入 $3.00 / 输出 3.00 / 输出$ 3.00/输出15.00

输出成本大概是Claude Sonnet的六折。

不过也要客观说一下短板。3.5 Flash在纯知识类和抽象推理上还是弱于3.1 Pro：

人类最后考试（HLE）：40.2% vs 3.1 Pro的44.4%
ARC-AGI-2：72.1% vs 3.1 Pro的77.1%

最后也是大家最关心的，如何使用它呢，如果你有魔法，可以使用ai.studio和gemini直接免费体验，我目前简单对话了10多轮，还没有碰到限制。

二、Gemini Omni：DeepMind的世界模型

这个是DeepMind CEO Demis Hassabis亲自上台讲的。能让Demis亲自讲的东西，级别不一般，也是整场发布会第一个出场的模型。

Demis给这个模型的定位是World Model，世界模型。

这个词谷歌以前很少在发布会上直接拿出来说。

之前有Genie 2、Genie 3，能用文本生成可探索的3D世界，但那些服务的是Agent训练和机器人仿真，普通用户基本碰不到。

这次Omni的关键词是：any input → any output。

不用从一段prompt开始。文本、图片、音频、视频，可以同时混着作为输入，Omni理解这些素材之间的关系，然后生成或修改。比如，把视频里的动作、人物、场景都换掉。

简单说，Genie是造世界，Omni是编辑世界。

首发的是Omni Flash版本，今天起对Google AI Plus、Pro和Ultra订阅用户开放。YouTube Shorts下周也会接入。

Hassabis说了句很关键的话：World Model的终极目标是训练机器人。模型理解了物理世界，机器人就能先在模型里练，再去真实世界干活。

野心很大。

三、Antigravity 2.0：谷歌版Claude Code

这个产品去年就有了，但这次I/O直接升到2.0，给了很大篇幅。

看完发布会你问我Antigravity是什么？

我的答案是：谷歌版的Claude Code。

准确说，它升级成了一个以Agent为核心的开发环境。核心能力包括：

Dynamic Subagents：可以派生子Agent并行执行任务
Scheduled Tasks：后台定时自动化
AgentKit 2.0 SDK：开发者可以自定义Agent行为，部署到自己的基础设施

三种使用方式：全新独立桌面应用（图形界面，可以编排多个Agent）、Antigravity CLI（终端操作）、SDK（嵌入你自己的代码部署）。

谷歌在台上演示了一个案例：用Antigravity 2.0在12小时内从零搭出了一个能跑的操作系统内核。

过程中自动启动了93个子Agent并行干活，处理了26亿token，总成本不到1000美元。

现场还在这个系统上跑了Doom。

四、Gemini Spark：关掉电脑，AI继续帮你干活

Spark是Gemini App新加的一个模式。Antigravity是开发者侧的Agent工作台，Spark就是消费端的。

定位很清楚：持久化AI Agent，跨应用自主工作，不再是被动等指令的助手。

24/7在线替你干活不新鲜，Spark的亮点是：你可以关掉电脑，任务不停。

你交代一个任务，Spark会在后台持续推进。关掉电脑，回到手机、浏览器、Gemini App，它还能把状态交回来。因为Spark不是跑在本地的，而是直接跑在Google Cloud上。

而且因为跑在云端，能直接调用Google全家桶------Gmail、Docs、Sheets、Calendar、Chrome、Android，跨多个应用执行任务。

后面还会通过MCP接第三方工具，比如Canva、OpenTable、Instacart。

Android上会有一个叫Android Halo的新UI区域，用来实时查看Spark这类Agent的进度更新。

不过目前限制也挺多：下周先对美国的AI Ultra订阅用户开放Beta，而且高风险操作（发邮件、花钱）会弹确认。

五、Search：25年来最大的一次升级

谷歌自己说的------这是搜索框25年来最大的一次升级。

今天起，AI Mode把Gemini 3.5 Flash作为全球默认模型。新的搜索框会动态展开，可以接文字、图片、文件、视频，甚至Chrome标签页。

过去搜索框的核心是关键词。现在谷歌直接让你把完整的意图、复杂的材料、更长的上下文都塞进去。

新能力主要分两条线。

第一条：Information Agents。 你可以在搜索里创建多个信息Agent，让它们在后台24/7持续监控网页、新闻、博客、社交、金融、购物、体育等数据。找公寓、盯价格、追新品、看比赛，这些以前要反复搜的事情，现在让Agent自己盯。今年夏天对Pro和Ultra订阅用户开放。

第二条：Generative UI。 问一个复杂问题，搜索不只给你链接，而是直接调用3.5 Flash和Antigravity的能力，实时生成交互式表格、可视化工具、自定义仪表盘。今年夏天免费向所有用户开放。

搜索框是谷歌最核心的资产。用户的需求从这里开始，广告、购物、地图、YouTube，后面所有的生意才接得上。所以这次Search升级，本质上是谷歌的入口防守战。

六、订阅体系调整

顺带说一下这次的订阅变化：

新增AI Plus：$7.99/月，入门级付费
AI Pro不变：$19.99/月
新增AI Ultra $100/月：面向开发者，5倍于Pro的使用额度
**AI Ultra $200 / 月 ∗ ∗ ：从 200/月**：从$ 200/月∗∗：从249.99降价，功能不变

从固定次数限制改成了基于计算量的动态额度，每5小时刷新一次。达到上限后不会断掉，而是降级到Flash-Lite继续服务。

另外用量不够的时候，Pro和Ultra用户可以按需购买AI积分充值。