刚刚，谷歌 AI 路线图曝光：竟要抛弃注意力机制？Transformer 有致命缺陷！

【新智元导读】未来 AI 路线图曝光！谷歌发明了 Transformer，但在路线图中承认：现有注意力机制无法实现「无限上下文」，这意味着下一代 AI 架构，必须「从头重写」。Transformer 的时代，真的要终结了吗？在未来，谷歌到底有何打算？

就在最近，谷歌未来的 AI 路线图曝光！

谷歌产品负责人 Logan Kilpatrick 在 AI 工程师世界博览会的演讲中，介绍了 Gemini 模型的未来。

在未来，Gemini 的全模态是重点，模型正在逐步变成智能体，推理能力还会持续扩展。

要点速览------

· 全模态（r）

已经原生支持图像 + 音频生成，接下来是视频

· Diffusion 的早期实验（r）

扩散模型相关

· 默认具备 Agent 能力（m）

一流的工具调用与工具使用能力，但更重要的是，模型正在逐步变成智能体

· 推理能力持续扩展（s）

一个又一个研究突破接踵而至

· 更多小模型（s）

很快会有更多内容可以分享

· 无限上下文（r）

以当前注意力机制和上下文处理方式，这是不可能实现的我们需要在核心架构层面进行全新创新，才能实现这一目标

· 大模型

规模即一切

注意，(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度：

• (s) = short: 短期 / 即将上线------表示已经在进行中 或即将推出的项目

• (m) = medium: 中期------仍在开发中的项目，将在未来几个季度内推出

• (r) = research: 研究 / 长期项目------在发布之前仍处于实验阶段或需要突破性进展

硅谷大厂混战

AI 年中成绩单大盘点

可以看出，谷歌现在是春风得意马蹄疾，Gemini 2.5 Pro 让它稳稳扳回了一局，再次证明了自己在 AI 领域老大哥的地位。

X 上的大 V「Chubby」，也对硅谷大厂们进行了一期「年中盘点」。

OpenAI

目前仍处于领先地位，凭借 o3、o3 pro 以及即将到来的 GPT-5，依然地位稳固。他们保持着定期更新，经常发布 AI 工具，不断增长的用户数量说明了一切。

DeepSeek

DeepSeek 在 r1 取得可观成功后陆续推出了重大更新，但目前全世界仍在等待后续产品 r2。关于 DeepSeek 后期将如何继续推进，目前尚无线索。

Anthropic

仍然是软件开发 (SWE) 领域的领头羊。如果其 CEO 所言不虚，智能体和进一步的发展将在未来几年内实现所有流程的自动化，并由通用智能体来处理。目前，Anthropic 正专注于商业领域（这一点从较低的速率限制上也不难看出），并继续保持强劲地位。

谷歌

然而，今年最大的赢家可能是谷歌，它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告，包括出色的 TPU 定位，让谷歌的未来看起来一片光明。

Meta

不可否认，Meta 已经落后了。Llama 4 失败了，Behemoth 也还没有发布。小扎组建了新的超级智能团队，试图再次迎头赶上。Alexandr Wang 从 Scale AI 加入 Meta 是否会成为转折点？仍有待观察。

Grok

Grok 3.5 也即将上线。目前很难评估。Grok 在 Colossus 集群中显然处于有利位置。然而，它是否能训练出更好的模型？仍有待观察。

这其中评价最高的谷歌，接下来一段时间会有什么大动作？

让我们仔细看看 Logan Kilpatrick 的演讲内容，从中找出关键线索。

全谷歌公认，Gemini 2.5 Pro 是谷歌重大转折点。

这次大会上，前 OpenAI 成员、谷歌 AI Studio 产品负责人 Logan Kilpatrick 的演讲干货满满，透露了不少 Gemini 2.5 Pro 以及将来谷歌 Gemini 的计划的细节。

关于 Logan Kilpatrick 这位哥，还有一件趣事：据说 Gemini 制作笑话的能力完全是根据他的推文训练出来的，这就是为什么它们都不好笑。🤣

目前，Logan Kilpatrick 负责 Gemini API 开发及 AGI 研究

在演讲中，Logan Kilpatrick 快速讲了三部分内容：

关于 Gemini 2.5 Pro 的一些有趣的发布内容；
回顾过去一年的 Gemini 进展；
展望未来 ------ 模型本身、Gemini App，以及开发者平台的后续计划。

关于 Gemini 2.5 Pro，他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」------

在数学、编程、推理上，全面封神，稳坐所有榜单第一。

它为 Gemini 的未来奠定了坚实的基础。

Gemini 的愿景

「统一助手」

Logan Kilpatrick 给大家提了一个问题：谷歌过去各产品之间的连接是什么？

大多数人会想到：谷歌账号。但谷歌账号本身其实不「保留状态」，它的作用只是让你登录各个独立产品。

而现在，Gemini 正在成为「统一线程」（thread）------串联起谷歌所有服务的那条线。

Gemini App，很有意思，很酷，体现了谷歌如何思考 AI 产品的未来。

他相信，谷歌的未来会呈现出这样的面貌：

Gemini 将成为统一接口，连接所有谷歌产品，形成真正的「全域助手」。

目前大多数 AI 产品，仍然是「用户主动操作」------你要主动提问，主动请求功能。

但最令人兴奋的是 AI 的下一个阶段：

「主动式 AI」（Proactive AI） ------AI 主动为你发现问题、提供建议、自动处理任务。

而现在，谷歌全力押注新范式转移：

多模态能力：原生音频处理已支持 Astra 和 Gemini Live，Veo 技术保持业界领先，视频整合将是下一阶段重点
模型进化：从单纯的 token 处理器转向具备系统化推理能力的智能体，「推理扩展」尤其值得关注
架构创新：包括小模型生态、无限上下文解决方案（需突破现有注意力机制限制）以及早期扩散实验展现的惊人 token 处理能力

向「全模态统一模型」迈进

从模型层面看，Gemini 最初就被设想为一个统一多模态模型：音频、图像、视频，全都能处理。

在这方面，谷歌取得了很大进展：

谷歌 I/O 大会宣布了 Gemini 的原生语音能力（文本转语音 TTS、语音合成、语音交互）；
它已经支持自然对话，听起来非常自然；
这些能力已集成到 Astro 与 Gemini Live。

Astro 是谷歌的研究原型，探索为旗下产品带来突破性能力的途径。

目前，Astro 集成了下列能力：

谷歌还在推进「Veo」相关能力（Video + Other），它已在多个指标上达到 SOTA 水平，未来也会并入主线 Gemini 模型。

此外，谷歌还在研究「基于扩散的推理」（diffusion-based reasoning）------ Gemini Diffusion。但此项目仍属研究前沿，尚未进入主线，但前景令人期待。

Gemini Diffusion 有极高吞吐速率，每秒可采样 1000 余 token

智能体成为主流

最近，Logan Kilpatrick 一直在思考：随着系统推理能力越来越强，未来 AI 产品是什么形态？

过去，开发者总是把模型当作黑盒工具：

输入 token，输出 token；

然后在外部构建各种 scaffolding（支架）以增强功能。

但现在，情况变了：

模型自身越来越系统化，越来越能自主做事，不再只是「被动计算器」。

他认为，「推理过程」将成为一个核心变革点：如何扩展模型的推理能力。

他非常期待的问题是：

过去外部做的很多 scaffolding，未来是否会被整合进模型的内部推理流程？这将彻底改变开发者构建产品的方式。

更多路线图：小模型、大模型、无限上下文

除此之外，谷歌还会在以下新产品和研究上发力。

更多「小模型」------轻量级，适合移动端与低功耗设备；
更大的模型------满足用户对极致能力的期待；
更重要的是：「**无限上下文」**的研究突破。

当前的 AI 模型架构（如 Transformer）的重要缺陷之一，就是无法很好地支持无限上下文。

谷歌认为，既然注意力机制无法无限扩展，那就必须有新结构。

他们正在积极探索：如何让模型引入、理解并高效处理超大规模上下文。

即将上线的开发者功能重点如下。

嵌入模型（Embeddings） 虽然感觉像「AI 早期工具」，但仍是核心组件。 RAG 应用背后大多数都依赖 embedding。谷歌即将发布一款最先进的 Gemini 嵌入模型，并拓展给更多开发者。
深度研究 API**（Deep Research API）** 用户对「深度研究」功能喜爱有加。谷歌正在将这些能力聚合为专门的 API 接口，面向研究型产品开发者。
Veo3 与 Imagine 4 接入 **API：**很快将上线。

最后一个重点，谷歌计划重新定位「AI Studio」:

不再是 2C 产品，而是明确定位为「开发者平台」。