黄仁勋 CES 2026 演讲笔记(part2 精华)
主题主线:Agentic Enterprise AI(企业级智能体系统) → Physical AI(物理 AI) → 三台电脑范式(训练 / 推理 / 仿真) → 合成数据 → Cosmos 世界基础模型 → Alpamayo 推理式自动驾驶
1. 从"不可置信"到"微不足道":用预训练语言模型构建应用
- 基于(预训练好的)语言模型构建应用,从几年前的"难以置信"变成现在的"微不足道"。
- 关键变化不是单点模型能力,而是模型 + 框架 + 工具链共同把复杂工程抽象为可组合模块(prompt / tool / memory / agent)。
2. 现代 AI 应用的通用架构(Enterprise AI 基本范式)
一句话概括:
预训练 LLM + 定制模型(私有/垂直)+ 认证/推理框架(Agentic framework)
使系统可访问 工具、文件、外部 API ,并可 连接其他智能体,形成"现代应用架构"。
2.1 组件职责(工程视角)
- 预训练(Frontier)模型:通用能力、推理与生成的"底座"。
- 定制/本地模型:企业私有知识、成本、隐私与合规(例如敏感业务数据本地处理)。
- Agentic / Reasoning 框架 :
- 工具调用(tool-use)、文件读写(RAG/Doc)、权限与认证(guardrails)
- 多智能体协作(agent-to-agent)
- 任务分解与路由(planner / router / executor)
用户/业务请求
Agentic Framework
规划/路由/执行/权限
预训练 LLM
通用推理与生成
定制模型/本地模型
企业知识/合规/成本
工具与系统
DB/API/文件/工作流
其他智能体
跨系统协同
3. "未见过的信息也能推理":智能体系统的关键价值
- 给它一个从未见过的信息,它仍然会尽力基于可用数据推理,尝试理解问题并寻求解决路径。
- 这意味着企业系统的交互正在从"固定表单/固定模板输入"走向"自然语言 + 结构化执行"。
4. Enterprise AI 被智能体系统革新:Agentic System = Interface(接口)
4.1 Nvidia 与多家企业平台深度合作(示例)
| 公司/平台 | 关键 | 这段话传递的含义 |
|---|---|---|
| Palantir | AI 与数据处理平台由 Nvidia 加速集成 | 企业数据平台将被 AI/Agent 原生化 |
| Snowflake | 顶级云端数据平台 | Agent 直接"面向数据"工作 |
| CodeRabbit | Nvidia 团队在用 | AI 代码审查/辅助将成为常态 |
| CrowdStrike | 构建 AI 检测 AI 威胁 | 安全领域向"AI 对 AI"演进 |
| NetApp | AI 数据平台叠加语义 AI + Agentic system 提供客服 | 传统 IT/存储平台也以 Agent 为入口 |
4.2 重要结论
- "Agentic system is the interface."
合作企业平台的交互入口正在变成智能体系统,而不再是"输入一堆 Excel/表单信息的方框"。
5. 物理 AI:从"屏幕里的智能"走向"与真实世界互动的智能"
- 物理 AI 的目标:把计算机内部的智能(通过屏幕和扬声器与你互动)变成能理解世界常识并与世界互动的智能。
- 必备的"物理常识"示例:
- 物体恒存性(object permanence)
- 因果关系(causality)
- 摩擦力、重力、惯性等
6. 三台电脑范式:训练 / 推理 / 仿真
做物理 AI,需要三种计算形态共同闭环。
- 训练计算机:用于训练 AI 模型(NVIDIA 的训练系统)。
- 推理计算机:用于部署推理(本质上是"机器人计算机",可在边缘任意地方运行)。
- 仿真计算机 :专为模拟设计,仿真是核心(数据、评测、长尾覆盖与安全验证)。
仿真计算机
推理计算机(边缘)
训练计算机
真实/日志/反馈
训练大模型/策略模型
实时推理与执行
车/机器人/工厂
物理仿真与合成数据
闭环评测与长尾覆盖
6.1 相关软件栈/库(你可按"用途"理解)
- Omniverse:数字孪生与基于物理的仿真世界(simulation-first)。
- Cosmos:世界基础模型(world foundation model),用于物理 AI 场景理解与生成。
- GR00T / Alpamayo:机器人/自动驾驶的模型家族(面向动作与执行)。
7. 如何教会 AI 物理世界:真实数据不足 → 合成数据成为答案
7.1 现实痛点
- 虽然现实世界有大量视频,但仍不足以覆盖:
- 场景多样性
- 关键交互(interaction)
- 罕见长尾(long-tail)事件
7.2 解法:受物理定律约束的合成数据
- 使用合成数据生成:
- 数据以真实数据为基础并受其约束
- 受物理定律约束,可"有选择性"地生成训练所需样本
- 用更低成本更快覆盖"长尾"
一句话:把"算力"变成"数据",再把"数据"变成"能力"。
8. Cosmos:开放的前沿世界基础物理 AI 模型
Cosmos 的定位:
- 开放的世界基础模型(World Foundation Model),面向物理 AI。
- 训练来源:互联网规模视频预训练 + 真实驾驶/机器人数据 + 3D 模拟。
- 习得统一表征:能协调 语言、图像、3D 与动作(action)。
- 能力示例:
- 生成物理可信的场景数据(如环视视频)
- 从单张图像进行推理与轨迹预测
- 将边缘场景分解为熟悉的物理交互并推理下一步可能发生的情况
- 工程意义:把训练转换为数据生产管线,用于自动驾驶长尾与机器人泛化适应。
9. Alpamayo:具备"思考推理能力"的端到端自动驾驶 AI
- 关键点:端到端(end-to-end)训练 ,从 相机输入 到 驱动输出(actuation)。
- 目标:推理式自动驾驶(reasoning-based AV),面对复杂与长尾场景更稳健。
- 表达方式:不仅输出控制,还要能说明"接下来做什么/为什么这么做/预测轨迹"。
10. 总结:机器人系统的下一个时代
- 基本技术组合:
三台电脑(训练/推理/仿真) + 仿真 + 合成数据生成 + 世界基础模型(Cosmos)
→ 可迁移到各类机器人系统与规模。 - 结论:机器人将进入下一时代,并呈现多形态、多尺寸的全面到来。
参考资料
- NVIDIA 官方博客:CES 2026 Special Presentation(Rubin / Open Models / Autonomous Driving)
- NVIDIA 新闻稿:Alpamayo open-source models and tools
- TechCrunch:Nvidia launches Alpamayo... reasoning AV models
- Rev:Jensen Huang CES 2026 keynote transcript(逐字稿)