凌晨,谷歌开完了今年的I/O大会。
照例,信息量巨大。模型、产品、Agent、搜索、硬件,加在一起十几项。Pichai开场就说,过去十年谷歌一直在往AI转,现在是时候让大家看看成果了。

这篇文章,挑几个最重要的,挨个说说。
一、Gemini 3.5 Flash:小模型反杀旗舰,今晚真正的主角
今晚发布的几乎所有产品,底座都换成了这个模型。
先说背景。Gemini的产品线一直分两条:Flash主打快和便宜,Pro定位旗舰最强。过去的逻辑是,Flash牺牲一些能力换速度和成本,Pro不计代价追极致性能。
结果这次3.5 Flash直接把上一代旗舰3.1 Pro给超了。
成绩单:
- 代码(Terminal-Bench 2.1):76.2%,3.1 Pro是70.3%
- Agent任务(GDPval-AA):1656 Elo,3.1 Pro是1314 Elo,差了三百多分
- 工具调用(MCP Atlas):83.6%,3.1 Pro是73.9%
- 多模态理解(MMMU-Pro):81.2%
- 博士级科学推理(GPQA Diamond):90.4%
- 代码修复(SWE-bench Verified):78%


特别提一下多模态理解这个分数,81.2%,全球第一。
多模态这块,还得是Gemini。
速度方面,Pichai原话:输出速度是其他前沿模型的4倍,每秒289个token。
而且谷歌内部还做了一个12倍速的优化版本,同等质量下推理速度再翻三倍。

价格上,比上代旗舰强,还比上代旗舰便宜:
- 3.5 Flash:输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1.50 / 输出 1.50 / 输出 </math>1.50/输出9.00(每百万token)
- 3.1 Pro(上代旗舰):输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2.00 / 输出 2.00 / 输出 </math>2.00/输出12.00
- Claude Sonnet 4.6:输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 3.00 / 输出 3.00 / 输出 </math>3.00/输出15.00
输出成本大概是Claude Sonnet的六折。
不过也要客观说一下短板。3.5 Flash在纯知识类和抽象推理上还是弱于3.1 Pro:
-
人类最后考试(HLE):40.2% vs 3.1 Pro的44.4%
-
ARC-AGI-2:72.1% vs 3.1 Pro的77.1%
最后也是大家最关心的,如何使用它呢,如果你有魔法,可以使用ai.studio和gemini直接免费体验,我目前简单对话了10多轮,还没有碰到限制。
二、Gemini Omni:DeepMind的世界模型
这个是DeepMind CEO Demis Hassabis亲自上台讲的。能让Demis亲自讲的东西,级别不一般,也是整场发布会第一个出场的模型。

Demis给这个模型的定位是World Model,世界模型。
这个词谷歌以前很少在发布会上直接拿出来说。
之前有Genie 2、Genie 3,能用文本生成可探索的3D世界,但那些服务的是Agent训练和机器人仿真,普通用户基本碰不到。
这次Omni的关键词是:any input → any output。
不用从一段prompt开始。文本、图片、音频、视频,可以同时混着作为输入,Omni理解这些素材之间的关系,然后生成或修改。比如,把视频里的动作、人物、场景都换掉。
简单说,Genie是造世界,Omni是编辑世界。
首发的是Omni Flash版本,今天起对Google AI Plus、Pro和Ultra订阅用户开放。YouTube Shorts下周也会接入。
Hassabis说了句很关键的话:World Model的终极目标是训练机器人。模型理解了物理世界,机器人就能先在模型里练,再去真实世界干活。
野心很大。
三、Antigravity 2.0:谷歌版Claude Code
这个产品去年就有了,但这次I/O直接升到2.0,给了很大篇幅。

看完发布会你问我Antigravity是什么?
我的答案是:谷歌版的Claude Code。
准确说,它升级成了一个以Agent为核心的开发环境。核心能力包括:
- Dynamic Subagents:可以派生子Agent并行执行任务
- Scheduled Tasks:后台定时自动化
- AgentKit 2.0 SDK:开发者可以自定义Agent行为,部署到自己的基础设施
三种使用方式:全新独立桌面应用(图形界面,可以编排多个Agent)、Antigravity CLI(终端操作)、SDK(嵌入你自己的代码部署)。
谷歌在台上演示了一个案例:用Antigravity 2.0在12小时内从零搭出了一个能跑的操作系统内核。
过程中自动启动了93个子Agent并行干活,处理了26亿token,总成本不到1000美元。
现场还在这个系统上跑了Doom。
四、Gemini Spark:关掉电脑,AI继续帮你干活
Spark是Gemini App新加的一个模式。Antigravity是开发者侧的Agent工作台,Spark就是消费端的。
定位很清楚:持久化AI Agent,跨应用自主工作,不再是被动等指令的助手。
24/7在线替你干活不新鲜,Spark的亮点是:你可以关掉电脑,任务不停。

你交代一个任务,Spark会在后台持续推进。关掉电脑,回到手机、浏览器、Gemini App,它还能把状态交回来。因为Spark不是跑在本地的,而是直接跑在Google Cloud上。
而且因为跑在云端,能直接调用Google全家桶------Gmail、Docs、Sheets、Calendar、Chrome、Android,跨多个应用执行任务。
后面还会通过MCP接第三方工具,比如Canva、OpenTable、Instacart。
Android上会有一个叫Android Halo的新UI区域,用来实时查看Spark这类Agent的进度更新。
不过目前限制也挺多:下周先对美国的AI Ultra订阅用户开放Beta,而且高风险操作(发邮件、花钱)会弹确认。
五、Search:25年来最大的一次升级
谷歌自己说的------这是搜索框25年来最大的一次升级。

今天起,AI Mode把Gemini 3.5 Flash作为全球默认模型。新的搜索框会动态展开,可以接文字、图片、文件、视频,甚至Chrome标签页。
过去搜索框的核心是关键词。现在谷歌直接让你把完整的意图、复杂的材料、更长的上下文都塞进去。
新能力主要分两条线。
第一条:Information Agents。 你可以在搜索里创建多个信息Agent,让它们在后台24/7持续监控网页、新闻、博客、社交、金融、购物、体育等数据。找公寓、盯价格、追新品、看比赛,这些以前要反复搜的事情,现在让Agent自己盯。今年夏天对Pro和Ultra订阅用户开放。
第二条:Generative UI。 问一个复杂问题,搜索不只给你链接,而是直接调用3.5 Flash和Antigravity的能力,实时生成交互式表格、可视化工具、自定义仪表盘。今年夏天免费向所有用户开放。
搜索框是谷歌最核心的资产。用户的需求从这里开始,广告、购物、地图、YouTube,后面所有的生意才接得上。所以这次Search升级,本质上是谷歌的入口防守战。
六、订阅体系调整
顺带说一下这次的订阅变化:
- 新增AI Plus:$7.99/月,入门级付费
- AI Pro不变:$19.99/月
- 新增AI Ultra $100/月:面向开发者,5倍于Pro的使用额度
- **AI Ultra <math xmlns="http://www.w3.org/1998/Math/MathML"> 200 / 月 ∗ ∗ :从 200/月**:从 </math>200/月∗∗:从249.99降价,功能不变
从固定次数限制改成了基于计算量的动态额度,每5小时刷新一次。达到上限后不会断掉,而是降级到Flash-Lite继续服务。
另外用量不够的时候,Pro和Ultra用户可以按需购买AI积分充值。