
【新智元导读】谷歌重磅发布第七代 TPU Ironwood,专为推理设计,性能较从初代飙升 3600 倍,可与英伟达 B200 一较高下。不仅如此,谷歌还带来了 Veo 2 等多款模型全新升级,就连「谷歌版」MCP 协议也公布了。
推理时代的首款 TPU 诞生了!
昨晚,一年一度的谷歌云大会上,首次亮相了谷歌第七代 TPU------Ironwood,直接叫板英伟达 Blackwell B200。
它是谷歌迄今为止性能最强、可扩展性最高的定制 AI 加速器,也是首款专为推理设计的加速器。

相较于 2018 年的第一代 TPU,Ironwood 推理性能飙涨 3600 倍,效率提升了 29 倍。
甚至,第七代全新 TPU 的性能是世界第一大超算的 24 倍。谷歌将于今年晚些时候正式推出 TPU v7。

继 MPC 之后,谷歌大会上首次亮相 Agent2Agent(A2A)开放协议,为智能体提供一个通用语言,可以在不同生态系统沟通协作。
还有 ADK、Agentspace,为开发者提供了全面构建、操作、管理 AI 智能体的能力。
此外,谷歌云大会精彩纷呈,Veo 2、Imagen 3、Chirp 3 纷纷迭代升级,文本转音乐模型 Lyria,Vertex AI 成为唯一覆盖视频、图像、语音和音乐的全新生成式 AI 平台。
下一步,极具性价比 Gemini 2.5 Flash 也将登录 Vertex AI。

推理时代首款 TPU 出世,媲美 B200
Ironwood 的诞生,不仅标志着谷歌在 AI 硬件又一大突破,还代表着 AI 基础设施的重大转变。
在谷歌看来,当下被动「响应式」模型,正转变为主动「生成式」智能体。

这种转变的核心在于,AI 不再仅仅停留在提供原始数据层面,而是能够主动检索信息、生成见解。
这正是在这个「推理时代」,谷歌对未来 AI 基础设施的定义:更智能、更主动、更具协作性。
主要特性
· 性能显著提升,同时注重功耗效率,使 AI 工作负载能够更具成本效益地运行。
相比起第六代 TPU Trillium,Ironwood 在功耗效率(perf/watt)上实现了 2 倍的提升;比 2018 年推出的首款 Cloud TPU,更是高出了近 30 倍。
同时,谷歌先进的液冷解决方案和优化的芯片设计,即使在持续、繁重的 AI 工作负载下,也能可靠地维持高达标准风冷两倍的性能。

图 3. 功耗效率相较于 TPU v2 提升了 29.3 倍
· 高带宽内存(HBM)容量大幅增加
Ironwood 芯片搭载了高达 192GB 的显存,是 Trillium 的 6 倍。
如此一来,便可以处理更大的模型和数据集,同时还减少了频繁数据传输的需求,进而提高了性能。
· HBM 带宽显著提高
Ironwood 芯片在带宽方面提升到了惊人的 7.2 Tbps,是 Trillium 的 4.5 倍。
极高的带宽确保了快速的数据访问,这对于现代 AI 中常见的内存密集型工作负载至关重要。

· 芯片间互连(ICI)带宽增强
Ironwood 的双向带宽已增加到 1.2 Tbps,是 Trillium 的 1.5 倍。这种芯片之间更快的通信,有助于大规模高效的分布式训练和推理。
用 Ironwood 驱动推理时代
Ironwood 为要求最严苛的 AI 工作负载提供了所需的大规模并行处理能力,例如用于训练和推理的、具有思考能力的超大规模稠密 LLM 或 MoE 模型。
对于谷歌 Cloud 客户,Ironwood 可根据 AI 工作负载需求提供两种规格------256 芯片或 9,216 芯片。

图 1. FP8 浮点运算峰值性能相较于 TPU v2 提升了 3600 倍
其中,每个单独的芯片峰值算力达 4,614 TFLOPs。
当扩展到每个 pod 9,216 个芯片,总计达到 42.5 Exaflop 时,Ironwood 的算力是世界上最大的超级计算机 El Capitan 的 24 倍以上------后者每个 pod 仅能提供 1.7 Exaflops。
不仅如此,Ironwood 还配备了增强版的专门用于处理高级排序和推荐任务的加速器------SparseCore。从而为更广泛的工作负载提供加速,包括超越传统 AI 领域,进入金融和科学领域。
Pathways 是由谷歌 DeepMind 开发的 ML 运行时,可在多个 TPU 芯片上实现高效的分布式计算。
谷歌 Cloud 上的 Pathways 使得超越单个 Ironwood Pod 变得简单直接,能够将数十万个 Ironwood 芯片组合在一起,从而快速推进生成式 AI 计算的前沿。

图 2. Ironwood 原生支持 FP8,而 v4 和 v5p 的峰值 TFlops 为模拟值
OpenAI 研究员针对 Ironwood 与英伟达 GB 200 做了性能对比,并表示 TPU v7 与 GB200 性能相当,甚至略胜一筹。

全模态 AI 平台来了,Veo 2 再升级
随着音乐功能的加入,Vertex AI 现在是唯一一个拥有涵盖所有模态------视频、图像、语音和音乐------的生成式媒体模型的平台。
这次放出的重大更新共有四项:
· 文本转音乐模型 Lyria,让客户可以从文本提示词开始,生成完整的、生产就绪的素材。
· Veo 2 的新编辑和摄像机控制功能,可帮助企业客户精确地优化和再利用视频内容。
· Chirp 3 现在包含了 Instant Custom Voice,这是一种仅需 10 秒音频输入即可创建定制语音的新方法。
· Imagen 3 改进了图像生成和图像修复能力,用于重建图像中缺失或损坏的部分,并使物体移除编辑的质量更高。
Lyria:文生音乐模型
Lyria 能生成高保真音频,细致捕捉精妙之处,并能在多种音乐流派中提供丰富、细节详尽的乐曲。
· 企业可以提升品牌体验
根据品牌独特的调性,为营销活动、产品发布或沉浸式店内体验快速定制配乐。
通过 Lyria,企业可以创建与目标受众产生深度共鸣的声音,培养情感联系并增强品牌记忆度。
· 创作者可以简化内容创作流程
对于视频制作、播客和数字内容创作而言,寻找完美的免版税音乐可能是一个耗时且昂贵的过程。
而 Lyria 可以在几分钟内生成定制音乐曲目,直接契合您内容的情绪、节奏和叙事,从而帮助加速制作工作流程并降低授权成本。例如:
创作一首高能的比波普 (Bebop) 曲调。优先突出令人眩晕的萨克斯管和小号独奏,以闪电般的速度交换复杂的乐句。钢琴应提供打击乐式的和弦伴奏,行进贝斯 (walking bass) 和快节奏的鼓点驱动着狂热的能量。基调应是令人振奋且激烈的。捕捉深夜、烟雾缭绕的爵士俱乐部的感觉,展示精湛技艺和即兴创作。要让听众无法安坐。
这次,谷歌显著改进了 Imagen 3 的图像修复(inpainting)能力,用于重建图像中缺失或损坏的部分。
尤其是在物体移除(object removal)方面,不仅质量更高,而且效果也更加自然。

MCP 之后,谷歌再造 A2A 协议
智能体可以帮助人们做很多工作,从订购新电脑,到协助客服人员,再到支持供应链规划。
智能体越来越实用的关键在于让它们能够在一个动态的多智能体生态系统中相互协作,跨越孤立的数据系统和应用程序。
为此,谷歌推出了全新的开放协议------Agent2Agent(A2A),获得了超过 50 家合作伙伴的支持和贡献。

A2A 协议将使 AI 智能体能够相互通信,安全地交换信息,并在各种企业平台或应用程序上协调行动。
它是一个开放协议,与 Anthropic 的模型上下文协议(MCP)相辅相成。
A2A 设计原则
A2A 遵循了五大核心原则:
· 拥抱智能体的能力:A2A 致力于让智能体以它们自然、非结构化的方式协作。
· 基于现有标准:A2A 构建在已有的、广泛使用的标准之上,比如 HTTP、SSE、JSON-RPC。
· 默认安全:A2A 从设计之初就支持企业级别的认证和授权,与 OpenAPI 的认证机制保持一致,确保安全性。
· 支持长时间运行的任务:设计 A2A 时考虑了灵活性,它能胜任从快速任务到需要数小时甚至数天的深入研究等多种场景,尤其是在有人的参与下。
· 不限模态:智能体的世界不只有文本,因此我们设计 A2A 时支持多种模态,包括音频和视频流,让它更加多样化。
A2A 如何工作
A2A 让「客户端」智能体和「远程」智能体之间的沟通变得更顺畅。

客户端智能体负责制定和传达任务,而远程智能体则负责执行这些任务,尽量提供正确的信息或采取正确的行动。这个互动涉及几个关键功能:
· 能力发现:智能体可以通过 JSON 格式的「Agent Card」来展示自己的能力。客户端智能体可以根据这个「名片」找到最适合执行某项任务的智能体,并通过 A2A 与远程智能体沟通。
· 任务管理:客户端智能体和远程智能体之间的交流以完成任务为核心,目的是满足用户的需求。
· 协作:智能体之间可以互相发送消息,分享上下文、回复、产物或用户指令。
· 用户体验****协商:每条消息中包含「parts,」,这是一个完整的内容单元,比如一张生成的图片。
实例:寻找候选人
用户(比如招聘经理)可以让自己的智能体去寻找符合职位描述的候选人。
这个智能体会与其他专业智能体互动,帮你挖掘潜在候选人。用户收到推荐名单后,可以再指示智能体安排后续面试,让找人的过程更顺畅。面试结束后,还可以让另一个智能体帮忙做背景调查。

A2A 有望开启一个智能体相互操作的新时代,推动创新,打造更强大、更灵活的 AI 智能体系统。我们相信,这个协议将为未来铺平道路,让智能体能够无缝协作,解决复杂问题,提升我们的生活。
我们致力于与合作伙伴和社区一起,公开构建这个协议。我们会把协议开源,并为贡献者设立清晰的参与路径。
谷歌 AI 代码助手,变身超强智能体
此次大会的另一个更新,就是谷歌的 AI 编码助手------Gemini Code Assist,已经在预览中获得了「智能体」能力!
在 Cloud Next 大会上,谷歌宣布:Code Assist 现在可以部署新的 AI 智能体,这些智能体可以执行多个步骤,来完成复杂的编程任务。
例如,这些智能体可以从 Google Docs 中的产品规格创建应用程序,或者将代码从一种语言转换为另一种语言。
另外,Code Assist 现在除了其他编码环境外,还可在 Android Studio 中使用。
这次升级,也是谷歌被 GitHub Copilot、Cursor 和 Devin 这些竞争者给逼疯了。
肉眼可见,现在 AI 编程隐含着巨大的掘金市场,各家的竞争也日趋白热化。
不过,Code Assist 能做到什么程度,目前还不清楚。研究表明,即使是今天最好的代码生成 AI,也往往会引入安全漏洞和错误,这是由于编程逻辑理解能力的弱点。
比如对 Devin 的一项评估就发现,它只完成了 20 项任务中的 3 项。
接下来,就让我们期待 Gemini Code Assist 在实际编程环境中的表现了。
参考资料: