谷歌I/O解读:小模型反杀旗舰,3.5 Flash凭什么全面超越3.1 Pro?

凌晨,谷歌开完了今年的I/O大会。

照例,信息量巨大。模型、产品、Agent、搜索、硬件,加在一起十几项。Pichai开场就说,过去十年谷歌一直在往AI转,现在是时候让大家看看成果了。

这篇文章,挑几个最重要的,挨个说说。


一、Gemini 3.5 Flash:小模型反杀旗舰,今晚真正的主角

今晚发布的几乎所有产品,底座都换成了这个模型。

先说背景。Gemini的产品线一直分两条:Flash主打快和便宜,Pro定位旗舰最强。过去的逻辑是,Flash牺牲一些能力换速度和成本,Pro不计代价追极致性能。

结果这次3.5 Flash直接把上一代旗舰3.1 Pro给超了。

成绩单:

  • 代码(Terminal-Bench 2.1):76.2%,3.1 Pro是70.3%
  • Agent任务(GDPval-AA):1656 Elo,3.1 Pro是1314 Elo,差了三百多分
  • 工具调用(MCP Atlas):83.6%,3.1 Pro是73.9%
  • 多模态理解(MMMU-Pro):81.2%
  • 博士级科学推理(GPQA Diamond):90.4%
  • 代码修复(SWE-bench Verified):78%

特别提一下多模态理解这个分数,81.2%,全球第一。

多模态这块,还得是Gemini。

速度方面,Pichai原话:输出速度是其他前沿模型的4倍,每秒289个token。

而且谷歌内部还做了一个12倍速的优化版本,同等质量下推理速度再翻三倍。

价格上,比上代旗舰强,还比上代旗舰便宜:

  • 3.5 Flash:输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1.50 / 输出 1.50 / 输出 </math>1.50/输出9.00(每百万token)
  • 3.1 Pro(上代旗舰):输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2.00 / 输出 2.00 / 输出 </math>2.00/输出12.00
  • Claude Sonnet 4.6:输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 3.00 / 输出 3.00 / 输出 </math>3.00/输出15.00

输出成本大概是Claude Sonnet的六折。

不过也要客观说一下短板。3.5 Flash在纯知识类和抽象推理上还是弱于3.1 Pro:

  • 人类最后考试(HLE):40.2% vs 3.1 Pro的44.4%

  • ARC-AGI-2:72.1% vs 3.1 Pro的77.1%

最后也是大家最关心的,如何使用它呢,如果你有魔法,可以使用ai.studio和gemini直接免费体验,我目前简单对话了10多轮,还没有碰到限制。


二、Gemini Omni:DeepMind的世界模型

这个是DeepMind CEO Demis Hassabis亲自上台讲的。能让Demis亲自讲的东西,级别不一般,也是整场发布会第一个出场的模型。

Demis给这个模型的定位是World Model,世界模型

这个词谷歌以前很少在发布会上直接拿出来说。

之前有Genie 2、Genie 3,能用文本生成可探索的3D世界,但那些服务的是Agent训练和机器人仿真,普通用户基本碰不到。

这次Omni的关键词是:any input → any output

不用从一段prompt开始。文本、图片、音频、视频,可以同时混着作为输入,Omni理解这些素材之间的关系,然后生成或修改。比如,把视频里的动作、人物、场景都换掉。

简单说,Genie是造世界,Omni是编辑世界。

首发的是Omni Flash版本,今天起对Google AI Plus、Pro和Ultra订阅用户开放。YouTube Shorts下周也会接入。

Hassabis说了句很关键的话:World Model的终极目标是训练机器人。模型理解了物理世界,机器人就能先在模型里练,再去真实世界干活。

野心很大。


三、Antigravity 2.0:谷歌版Claude Code

这个产品去年就有了,但这次I/O直接升到2.0,给了很大篇幅。

看完发布会你问我Antigravity是什么?

我的答案是:谷歌版的Claude Code

准确说,它升级成了一个以Agent为核心的开发环境。核心能力包括:

  • Dynamic Subagents:可以派生子Agent并行执行任务
  • Scheduled Tasks:后台定时自动化
  • AgentKit 2.0 SDK:开发者可以自定义Agent行为,部署到自己的基础设施

三种使用方式:全新独立桌面应用(图形界面,可以编排多个Agent)、Antigravity CLI(终端操作)、SDK(嵌入你自己的代码部署)。

谷歌在台上演示了一个案例:用Antigravity 2.0在12小时内从零搭出了一个能跑的操作系统内核

过程中自动启动了93个子Agent并行干活,处理了26亿token,总成本不到1000美元。

现场还在这个系统上跑了Doom。


四、Gemini Spark:关掉电脑,AI继续帮你干活

Spark是Gemini App新加的一个模式。Antigravity是开发者侧的Agent工作台,Spark就是消费端的。

定位很清楚:持久化AI Agent,跨应用自主工作,不再是被动等指令的助手。

24/7在线替你干活不新鲜,Spark的亮点是:你可以关掉电脑,任务不停。

你交代一个任务,Spark会在后台持续推进。关掉电脑,回到手机、浏览器、Gemini App,它还能把状态交回来。因为Spark不是跑在本地的,而是直接跑在Google Cloud上。

而且因为跑在云端,能直接调用Google全家桶------Gmail、Docs、Sheets、Calendar、Chrome、Android,跨多个应用执行任务。

后面还会通过MCP接第三方工具,比如Canva、OpenTable、Instacart。

Android上会有一个叫Android Halo的新UI区域,用来实时查看Spark这类Agent的进度更新。

不过目前限制也挺多:下周先对美国的AI Ultra订阅用户开放Beta,而且高风险操作(发邮件、花钱)会弹确认。


五、Search:25年来最大的一次升级

谷歌自己说的------这是搜索框25年来最大的一次升级。

今天起,AI Mode把Gemini 3.5 Flash作为全球默认模型。新的搜索框会动态展开,可以接文字、图片、文件、视频,甚至Chrome标签页。

过去搜索框的核心是关键词。现在谷歌直接让你把完整的意图、复杂的材料、更长的上下文都塞进去。

新能力主要分两条线。

第一条:Information Agents。 你可以在搜索里创建多个信息Agent,让它们在后台24/7持续监控网页、新闻、博客、社交、金融、购物、体育等数据。找公寓、盯价格、追新品、看比赛,这些以前要反复搜的事情,现在让Agent自己盯。今年夏天对Pro和Ultra订阅用户开放。

第二条:Generative UI。 问一个复杂问题,搜索不只给你链接,而是直接调用3.5 Flash和Antigravity的能力,实时生成交互式表格、可视化工具、自定义仪表盘。今年夏天免费向所有用户开放。

搜索框是谷歌最核心的资产。用户的需求从这里开始,广告、购物、地图、YouTube,后面所有的生意才接得上。所以这次Search升级,本质上是谷歌的入口防守战。


六、订阅体系调整

顺带说一下这次的订阅变化:

  • 新增AI Plus:$7.99/月,入门级付费
  • AI Pro不变:$19.99/月
  • 新增AI Ultra $100/月:面向开发者,5倍于Pro的使用额度
  • **AI Ultra <math xmlns="http://www.w3.org/1998/Math/MathML"> 200 / 月 ∗ ∗ :从 200/月**:从 </math>200/月∗∗:从249.99降价,功能不变

从固定次数限制改成了基于计算量的动态额度,每5小时刷新一次。达到上限后不会断掉,而是降级到Flash-Lite继续服务。

另外用量不够的时候,Pro和Ultra用户可以按需购买AI积分充值。

相关推荐
明天有专业课5 小时前
RAG-重排序策略
面试·aigc
风落无尘5 小时前
AIGC(Stable Diffusion 生态)常用知识与参数速查手册
人工智能·stable diffusion·aigc
彦为君6 小时前
长时间运行的 Agent:如何设计可靠的执行框架
python·ai·ai编程
子昕6 小时前
看完 Google I/O 2026,我确信:多 Agent 时代不是概念了,Google 在造基础设施
ai编程
极品小學生6 小时前
拆解大模型时代的“流量交通枢纽”:API 中转站架构与核心原理
ai·架构·ai编程
uccs6 小时前
Agent循环原理
agent·ai编程·claude
92year6 小时前
用 GitHub spec-kit 做 Spec-Driven Development:从需求到代码一条线
aigc
Mr数据杨7 小时前
AIGC工具平台-StoryBoard故事板
人工智能·aigc·php
盼君7 小时前
AI生成了网页,怎么部署上线?从零到HTTPS全流程实录
ai编程