DreamZero技术解析:当世界模型成为机器人“物理大脑”

原文摘要翻译

最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过 2 倍。重要的是,通过模型和系统优化,我们使得一个 140 亿参数的自回归视频扩散模型能够以 7Hz 的频率进行实时闭环控制。最后,我们展示了两种跨形态迁移形式:来自其他机器人或人类的纯视频演示,仅需 10--20 分钟的数据,即可在未见任务上获得超过 42% 的相对性能提升。更令人惊讶的是,DreamZero 支持少样本的具身适应,仅需 30 分钟的随操作数据即可迁移到新的具身形体,同时保留零样本泛化能力。

从流匹配数学原理到跨本体迁移的工程实现------World Action Model如何突破VLA的泛化瓶颈

引言:VLA的"物理盲区"与WAM的范式转移

当前SOTA的Vision-Language-Action (VLA)模型(如RT-2、π₀、GR00T N1)展现出惊人的语义理解能力------你可以指令它"将可乐罐移到Taylor Swift照片旁",它能借助VLM预训练的互联网知识识别目标并完成操作。然而,当面对"解开鞋带"这类未见过的物理动作时,VLA会彻底失效。

根本症结 :VLA继承自Vision-Language Model (VLM),而VLM的训练数据是静态图文对 。它理解"鞋带"的语义,却缺乏对"解"这一动作的时空几何、动力学与运动控制 的表征。正如NVIDIA GEAR Lab在《World Action Models are Zero-shot Policies》中指出的:VLM先验编码了"做什么"(what),却缺乏"怎么做"(how)的物理直觉

DreamZero提出了World Action Model (WAM) 范式:不再是直接从视觉映射到动作,而是先预测未来世界状态(视频),再从中提取动作 。这种"世界模型+逆动力学"的架构,让14B参数的视频扩散模型首次实现了零样本物理泛化 ------在未见任务上取得比SOTA VLA高2倍 的成功率,并能通过30分钟数据适应全新机器人本体。


一、数学基础:联合视频-动作预测的生成模型

1.1 问题形式化:分解联合分布

关键洞察:公式(1)右侧的分解揭示了WAM的本质------视频预测作为隐式视觉规划器,动作预测作为逆动力学提取器。这种分解允许模型利用互联网视频预训练优化左侧乘数(世界模型),再通过少量机器人数据对齐右侧乘数(动作策略)。

1.2 流匹配训练目标(Flow Matching)


二、算法实现:训练与推理的流程细节

算法1:Chunk-wise Flow Matching训练

python 复制代码
# 输入: 轨迹数据 {(o_t, a_t, c, q_t)}_{t=0}^T
# 超参数: Chunk大小 H=24, Chunks数 K

for step in range(N):
    # 1. 采样轨迹和起始点
    traj = sample_trajectory()
    l = random.randint(0, T - H*K)

    # 2. VAE编码观测,归一化动作
    z_clean = VAE_encode(traj.observations[l:l+H*K])  # [K, H, D]
    a_clean = normalize_actions(traj.actions[l:l+H*K])

    # 3. 分块处理
    chunks_z = split_into_chunks(z_clean, H)
    chunks_a = split_into_chunks(a_clean, H)

    loss = 0
    context = []  # 干净历史缓存

    for k in range(K):
        # 4. 采样共享时间步(标准版)或解耦时间步(Flash版)
        t_k = random.uniform(0, 1)

        # 5. 添加噪声(公式2)
        z_noise, a_noise = randn_like(chunks_z[k]), randn_like(chunks_a[k])
        z_t = t_k * chunks_z[k] + (1 - t_k) * z_noise
        a_t = t_k * chunks_a[k] + (1 - t_k) * a_noise

        # 6. 计算目标速度
        v_target = torch.cat([chunks_z[k] - z_noise, chunks_a[k] - a_noise], dim=-1)

        # 7. 前向传播(带因果注意力掩码)
        v_pred = model(z=z_t, a=a_t, context=context, instruction=c, 
                      proprio=traj.proprio[l+k*H], timestep=t_k)

        # 8. 流匹配损失(公式3)
        loss += w(t_k) * MSE(v_pred, v_target)

        # 9. Teacher Forcing:使用真实数据更新上下文
        context.append((chunks_z[k], chunks_a[k]))

    loss.backward()
    optimizer.step()

算法2:闭环自回归推理

python 复制代码
# 输入: 初始观测 o_0, 指令 c, 初始状态 q_0
kv_cache = initialize_cache()
obs_history = [o_0]

while not task_done:
    # 1. 编码当前观测历史
    z_context = VAE_encode(obs_history)

    # 2. 自回归生成未来chunks(使用KV Cache)
    actions_chunk = []
    for k in range(num_chunks):
        z_future, a_future = autoregressive_denoise(
            model, context=kv_cache, instruction=c,
            proprio=current_proprio, num_steps=16  # 或4步(Flash模式)
        )
        actions_chunk.append(a_future)
        kv_cache.update(z_future)  # 更新缓存

    # 3. 异步执行动作块(48步@30Hz = 1.6秒)
    robot.execute_async(concatenate(actions_chunk))

    # 4. 闭环修正:获取真实观测替换预测
    sleep(1.6)
    real_obs = robot.get_observation()
    obs_history.append(real_obs)
    kv_cache.replace_last_frame(VAE_encode(real_obs))  # 关键:防止误差累积

三、架构创新:自回归DiT与DreamZero-Flash

3.1 自回归vs双向:模态对齐的关键

DreamZero采用**自回归DiT(Diffusion Transformer)**而非双向扩散,基于三个关键考量:

特性 双向扩散(BERT-style) 自回归(DreamZero)
上下文长度 固定,需降采样 任意长,支持历史累积
帧率保持 必须降采样(30fps→10fps) 原生帧率 ,精确时序对齐
误差累积 无法闭环修正 KV Cache替换 真实观测
推理效率 O(N)历史处理 O(1)增量生成

模态对齐的物理意义 :动作与视频必须在时间维度 上精确对齐。双向模型为适配固定窗口需降采样视频,破坏"手爪闭合"与"视觉接触"的毫秒级对应关系。自回归架构通过KV Cache保留所有历史帧的原生表示,确保动作生成与视频帧的逐帧对齐

3.2 注意力掩码策略

DreamZero使用非对称QKV注意力掩码:

  • 因果掩码:当前chunk只能attend到之前chunks的干净表示

  • 跨模态约束 :动作token可以attend到视频token(逆动力学),但视频token不能attend到动作token

这确保了视频预测作为"领导者",动作预测作为"跟随者",符合物理因果(世界状态变化先于动作执行)。

3.3 DreamZero-Flash:解耦噪声调度

标准扩散模型需16步去噪迭代,难以满足实时控制(目标<200ms)。DreamZero-Flash 通过解耦噪声调度实现单步/4步推理:

训练-推理不匹配问题

Beta分布偏置策略


四、系统优化:38倍加速的工程实现

DreamZero通过三级优化将14B模型的推理延迟从5.7秒 降至150毫秒(38倍加速):

优化层级 具体技术 GB200加速比 延迟
系统级 CFG并行(双GPU分布) 1.8× 3.0s
+ DiT缓存(速度方向一致性复用) 5.4× 1.05s
实现级 + Torch Compile/CUDA Graphs 10.9× 520ms
+ 内核优化(cuDNN注意力) 14.8× 385ms
+ NVFP4量化(权重/激活4位) 16.6× 343ms
模型级 + DreamZero-Flash(单步推理) 38× 150ms

关键技术细节

  • DiT缓存:利用流匹配中速度预测的方向一致性,当相邻步骤速度余弦相似度>阈值时复用缓存,将有效步数从16降至4

  • 异步执行:动作块执行(1.6秒)与推理并行,实现7Hz有效闭环控制

  • 闭环修正:每执行完一块动作,用真实观测替换KV Cache中的预测帧,防止误差累积


五、实验验证:数据、结果与消融

5.1 数据集:异构性优先于重复性

DreamZero在AgiBot G1上收集的数据呈现高度异构性

  • 时长分布:平均每片段4.4分钟,包含~42个子任务(远高于DROID的短片段)

  • 环境覆盖:22个独特环境(家庭、餐厅、超市、咖啡店、办公室)

  • 技能分布:导航、躯干调整(适应高度)、双臂/单臂操作

核心原则任务多样性 > 重复性。不追求"叠衬衫重复100次",而是收集"100种不同交互各执行1次"的真实世界数据。

5.2 主实验详细说明

本实验旨在系统验证 World Action Model(WAM)相比传统 Vision-Language-Action(VLA)模型在数据效率、零样本泛化及微调稳定性上的优势。实验采用双阶段训练策略 (预训练→微调)和双平台验证(AgiBot G1 移动双臂机器人 + Franka 单臂机器人),构建了从通用物理理解到特定任务适应的完整评估体系。

1. 机器人平台与数据收集哲学

实验在两个截然不同的机器人本体上进行,以验证方法的跨平台适用性:

AgiBot G1(移动双臂机器人)

  • 数据量:约 500 小时(7.2K episodes),自行采集

  • 环境覆盖:22 个真实场景(家庭、餐厅、超市、咖啡店、办公室)

  • 核心特点

    • 长程异构:每个 episode 平均 4.4 分钟,包含约 42 个子任务(远超传统数据集的短片段)

    • 多样化优先:刻意避免单一任务的重复演示,采集真实场景中的实用行为轨迹

    • 技能分布:导航(移动工作空间)、躯干调整(不同高度操作)、物体操作

Franka(固定单臂机器人)

  • 数据量:使用公开 DROID 数据集(最具异构性的开源机器人数据)

  • 目的:验证方法在公开可复现数据上的有效性

2. 预训练阶段:通用物理理解

训练配置

  • 骨干网络:Wan2.1-I2V-14B-480P(140亿参数图像到视频扩散模型)

  • 初始化:利用 Web-scale 视频预训练权重,继承物理动态先验

  • 训练步数:100K 步(AgiBot 和 DROID 各 100K 步)

  • Batch Size:全局 128

  • 可训练参数:所有 DiT 块、状态编码器、动作编码器/解码器(冻结文本/图像编码器及 VAE)

对比基线设置为公平比较,对 SOTA VLA 模型(GR00T N1.6 和 π₀.₅)设置两种初始化:

  • Scratch:仅使用预训练 VLM 权重,无机器人数据预训练

  • Pretrained:使用已在数千小时跨机器人数据上预训练的官方 checkpoint

3. 评估协议:零样本泛化测试

默认评估设置未见环境 + 未见物体(训练与评估在不同地理位置进行,确保分布外测试)

任务分类

  • Seen Tasks:训练分布内的任务(如拾取放置、擦拭桌面)

  • Unseen Tasks:全新任务(如解鞋带、熨衣服、从人体模型摘帽子等)

4. 微调阶段:特定任务适应与泛化保持

在预训练基础上,针对三个具体任务进行微调,验证任务专业化环境泛化的平衡:

微调任务数据(AgiBot G1)

任务 数据量 特点
Shirt Folding 33小时 5个顺序折叠阶段,2种衬衫类型,随机初始位置
Fruit Packing 12小时 10个水果装袋,随机组合和位置
Table Bussing 40小时 5件垃圾+5件餐具分类,随机物体类型和位置

训练配置

  • 训练步数:每个任务 50K 步

  • 参数更新:与预训练阶段一致(更新 DiT 块及状态/动作编码器)

  • 评估重点 :在全新环境中测试任务完成进度(Task Progress),检验微调后是否仍保持环境泛化能力

5. 实验核心假设与验证逻辑

本实验设计围绕三个核心假设展开验证:

  1. 数据多样性优于重复性:通过对比"多样化异构数据"与"重复演示"的预训练效果,验证 WAM 能否打破"通用策略需要大量重复演示"的传统认知。

  2. 视频预训练先验的不可替代性:通过对比 DreamZero(视频扩散初始化)与 VLA(VLM 初始化)在相同数据下的表现,证明视频生成能力对物理动态理解的关键作用。

  3. 微调不损泛化 :通过微调后在未见环境中的测试,验证 WAM 的世界建模目标使模型学习"物理规则本身"而非特定环境的视觉特征,从而避免 VLA 常见的"微调即过拟合"问题。

5.3 已见任务表现

AgiBot G1上的对比(深绿色为DreamZero):

任务类别 DreamZero π₀.₅ (Pretrained) GR00T N1.6 (Pretrained) 倍数提升
PnP Easy 93.8% 52.1% 17.6% 1.8× vs π₀.₅
PnP Hard 48.4% 22.7% 4.7% 2.1× vs π₀.₅
Contact-Rich 49.0% 9.2% 4.2% 5.3× vs π₀.₅
AVG (Task Progress) 62.2% 27.4% 8.4% 2.3× vs π₀.₅

关键发现

  • 接触丰富任务(Contact-Rich,如折叠、擦拭)中,DreamZero优势最大(5.3倍),证明世界模型对精细物理交互的理解远超VLA

  • 即使是已见任务,DreamZero的平均进度(62.2%)也显著高于预训练VLA(27.4%),证明异构数据训练优于重复演示

DROID数据集对比(右侧):

  • Task Progress : DreamZero 82% vs π₀.₅ 69% vs GR00T N1.6 62%

  • Success Rate : DreamZero 75% vs π₀.₅ 42% vs GR00T N1.6 42%

5.4 零样本泛化:未见任务

AgiBot G1未见任务详细分解

AVG/Robot DreamZero(Scratch) π₀.₅ (Scratch) GR00T N1.6 (Scratch) π₀.₅ (Pretrained) GR00T N1.6 (Pretrained)
**AgiBot G1(**Task Progress) 39.5% 0% 0.7% 16.3% 5%
关键洞察

1. DreamZero 的零样本泛化能力 DreamZero 在完全没有见过的新任务 (如解鞋带、熨衣服、从人体模型上摘帽子等)上达到了 39.5% 的任务进度,这是状态最优VLA模型(π₀.₅ Pretrained,16.3%)的2.4倍

2. "Scratch" vs "Pretrained" 的反差

  • VLA模型(π₀.₅ 和 GR00T N1.6):从VLM权重直接训练(Scratch)时几乎无法完成未见任务(0%-0.7%),必须经过大量机器人数据预训练才能有一定表现(5%-16.3%)

  • DreamZero:即使没有机器人预训练,仅依靠视频扩散模型的世界先验知识,就能有效泛化到新任务

3. 为什么 DreamZero 只有 Scratch?

DreamZero没有"Pretrain"这一行是因为它直接继承了视频扩散模型(Wan2.1)的物理动态先验,跳过了传统VLA的"机器人数据预训练"阶段。它的"Scratch"实际上是从视频生成权重开始,而非从零随机初始化。

4. 任务进度(Task Progress)的计算这个数字代表任务完成的百分比。例如在解鞋带任务中,可能包括"找到鞋带→抓住鞋带→解开结→拉出鞋带"等多个阶段,39.5%意味着平均完成了约40%的子步骤。

这行数据有力地证明了世界动作模型(WAM)通过视频预测学习物理动态,相比传统VLA具有更强的零样本任务泛化能力------即使在训练数据中没有见过的全新操作,也能基于对物理世界的理解进行尝试。

指标 DreamZero π₀.₅ GR00T N1.6 DreamZero 优势
Task Progress 49% 33% 31% 相对提升 48% (vs π₀.₅)
Success Rate 22.5% 7.5% 12.5% 提升 3倍 (vs π₀.₅)

关键差异:Task Progress vs Success Rate

这两个指标衡量的维度不同:

Task Progress(任务进度)

  • 衡量任务完成的程度(0-100%)

  • 例如:若任务是把5个物品放入盒子,成功放了2个,进度就是40%

  • DreamZero 达到 49%,意味着在未见任务中平均能完成近一半的操作步骤

Success Rate(成功率)

  • 衡量任务完全成功的比例(二值:成功/失败)

  • 例如:只有5个物品全部放入盒子才算成功

  • DreamZero 的 22.5% 意味着每4-5次尝试中就有1次完全成功,而基线模型每10次只有1次成功(π₀.₅)或不到2次(GR00T N1.6)

为什么 Success Rate 提升比 Task Progress 更显著?

Success Rate 提升 3倍 (22.5% vs 7.5%),而 Task Progress 只提升 48%(49% vs 33%),这说明:

  1. DreamZero 更擅长"完成任务":不仅动作做得更多,而且更有可能把任务做完

  2. 基线模型容易"半途而废":虽然能做一些正确动作(Task Progress 33%),但经常在中途失败,导致最终成功率很低(7.5%)

  3. DreamZero 的动作一致性更强:得益于联合视频-动作预测,它能更好地规划完整动作序列,减少中途放弃的情况

与 AgiBot G1 结果的对比

相比 AgiBot G1(DreamZero 39.5% vs π₀.₅ 16.3%),Franka 上 DreamZero 的优势比例较小但绝对值更高

  • 原因 1:DROID 是公开的异构数据集,基线模型(尤其是 π₀.₅-DROID)已经在这个数据集上优化过

  • 原因 2:Franka 是单臂操作,任务复杂度相对较低,VLA 模型的表现空间更大

  • 原因 3:AgiBot G1 是移动双臂机器人,环境更复杂,DreamZero 的世界建模优势被进一步放大

尽管如此,DreamZero 在 Success Rate 上 3倍 的提升仍然是非常显著的,证明即使在基线已经优化的设置下,世界动作模型(WAM)在零样本任务泛化上依然碾压传统 VLA

5.4 后训练保持性

测试DreamZero在特定任务微调后是否仍保持环境泛化能力:

任务 DreamZero π₀.₅ (Scratch) GR00T N1.6 (Scratch) π₀.₅ (Pretrained) GR00T N1.6 (Pretrained)
Shirt Folding 92.5% 1.5% 2.5% 92.5% 65%
Fruit Packing 96% 0% 2.7% 71% 56%
Table Bussing 83% 0% 0% 76% 39%
AVG 90.5% 0.5% 9.8% 79.8% 53.3%

关键结论

1. DreamZero 微调后仍保持极强的环境泛化

DreamZero 在微调后平均达到 90.5% 的任务进度,而且这是在新环境(与训练数据收集地点不同的地理区域)中测试的结果。

2. 与预训练 VLA 的关键差异

  • π₀.₅ (Pretrained):虽然在 Shirt Folding 上与 DreamZero 持平(92.5%),但在 Fruit Packing 和 Table Bussing 上明显落后(71% vs 96%,76% vs 83%)

  • GR00T N1.6 (Pretrained) :在微调后出现明显的环境过拟合 ,平均只有 53.3% ,远低于 DreamZero 的 90.5%

3. 为什么 DreamZero 能保持泛化?

这是因为 DreamZero 的世界建模(World Modeling)特性:

  • VLA:微调时容易过拟合到训练环境的特定视觉特征和动作模式,丧失对新环境的适应能力

  • DreamZero:通过视频预测学习物理动态,即使针对特定任务微调,也仍然保持对"物理世界如何运作"的理解,因此能在新环境中表现稳定

4. 实际意义

在真实机器人部署中,通常需要针对特定任务进行后训练(post-training)。这组实验证明:

  • DreamZero 不仅零样本能力强 ,而且在实际微调后不会牺牲泛化能力

  • 传统 VLA 虽然可以通过大量预训练达到较高性能(如 π₀.₅ Pretrained),但在新环境中的表现不如 DreamZero 稳定,且需要大量预训练数据

  • 从零训练的 VLA(Scratch)在微调后几乎无法工作(0%-2.7%),再次证明视频预训练先验的重要性

5.3 跨本体迁移:30分钟适应新机器人

视频仅迁移(Video-only Transfer)

  • 源数据 :YAM机器人或人类演示视频(10-20分钟),无动作标签

  • 效果 :相比无迁移基线,未见任务成功率相对提升**>42%**

  • 意义:人类视频可直接用于机器人训练,无需昂贵的动作重定向

小样本适应(Few-shot Adaptation)

  • 设置:AgiBot G1预训练(500小时)→ YAM微调(30分钟玩耍数据)

  • 惊人结果 :适应YAM的同时保留零样本泛化------能在YAM上执行从未训练过的新任务

  • 数据效率:打破"每个新机器人需从头收集海量数据"的诅咒


六、消融实验:验证设计决策

Q1. 数据多样性(Data Diversity)

数据类型 Task Progress 关键洞察
Repetitive (重复演示) 33% ± 4.2% 传统方法:每个任务多次重复采集
Diverse (多样化异构数据) 50%± 6.3% DreamZero 方法:少量重复,强调任务多样性

解读

  • 多样性 > 重复性 :使用同样数量的训练数据(约500小时),多样化数据的任务进度比重复演示高出 17个百分点(提升51%)

  • 打破传统认知 :传统VLA需要每个任务多次重复演示才能学习,而 DreamZero 的世界建模目标使其能从异构、非重复的轨迹中有效学习物理动态

  • 方差更低:虽然多样性数据的方差略高(6.3% vs 4.2%),但绝对性能优势明显,且更符合真实场景数据收集的实际条件

Q2. 模型规模(Model Scale)

模型 规模 Task Progress 关键洞察
DreamZero (AR) 5B 21% ± 4.2% 较小规模仍有一定能力
DreamZero (AR) 14B 50% ± 6.3% 规模效应显著
VLA 5B 0% ± 0.0% 完全失败
VLA 14B 0% ± 0.0% 即使扩大规模也无效

解读

  • DreamZero 的扩展性 :从 5B 到 14B,性能提升 29个百分点(相对提升138%),说明视频扩散骨干网的规模直接转化为下游控制性能

  • 架构差异的本质 :VLA(基于VLM)即使扩展到14B,在多样化数据上仍然 0% 完全失效,这证明了:

    • 视频预训练先验的不可替代性:VLM在静态图像-文本数据上预训练,缺乏时空动态理解

    • 世界建模的必要性:只有具备视频生成能力的模型才能从异构机器人数据中有效学习

  • 数据效率 :即使是 5B 的 DreamZero(21%)也远超 14B VLA(0%),说明架构选择比单纯扩大规模更重要


Q3. 架构对比(双向 vs 自回归)

架构 Task Progress 标准差 关键洞察
BD (Bidirectional,双向扩散) 50% ±14.4% 性能波动大,不稳定
AR (Autoregressive,自回归) 50% ±6.3% 同样平均性能,但更稳定

解读

  • 平均性能持平 :两种架构在平均任务进度上没有差异(都是50%),但稳定性差异巨大

  • AR 的优势

    • 方差降低 56%(14.4% → 6.3%):自回归架构在不同任务和环境中的表现更加一致

    • KV Cache 效率:自回归允许使用 KV Cache 进行高效推理,支持长程依赖

    • 避免下采样失真:双向模型通常需要固定长度序列,导致视频帧率被下采样(损害时序对齐);AR 支持任意长度,保持原生帧率

  • 选择依据 :虽然双向和AR都能达到相似的平均性能上限,但 AR 的稳定性和推理效率 使其成为 DreamZero 的最终选择

综合结论

这组消融实验验证了 DreamZero 的三个核心设计决策:

  1. 数据策略 :优先采集多样化、长程、异构的真实世界操作数据,而非重复演示单一任务

  2. 模型规模 :基于14B视频扩散模型(Wan2.1),利用规模效应提升视频生成质量,进而提升控制性能

  3. 架构选择 :采用自回归(AR)架构而非双向扩散,获得更稳定的泛化能力和更高效的推理性能

最关键的是,这些实验证明了 WAM(World Action Model)的范式优越性------即使在相同数据规模和模型规模下,基于视频预训练的架构(DreamZero)显著优于基于VLM的VLA架构,且这种优势在扩大规模时更加明显。


七、局限与未来方向

当前局限

  1. 计算门槛:14B模型需H100/GB200级硬件,边缘部署困难(虽有5B版本,性能损失约30%)

  2. 推理延迟:150ms对于抛接球等高频反馈任务仍显不足

  3. 视频幻觉:扩散模型可能生成物理不一致的未来(物体穿透、漂浮),导致危险动作

与VLA的互补性

DreamZero并非取代VLA,而是分层架构的关键组件:

  • 高层规划(VLA):利用语义知识进行任务分解、常识推理

  • 低层执行(WAM):利用物理动态进行动作生成、环境交互

未来方向:VLA生成子目标("打开抽屉"),DreamZero执行物理交互(手爪轨迹、接触力控制)。


八、结论:从行为克隆到物理理解

DreamZero代表了机器人学习范式的根本转变:

传统VLA范式

局限:需要覆盖所有可能行为的海量重复数据,缺乏物理常识。

DreamZero WAM范式

优势:利用互联网视频预训练获得物理直觉,通过联合生成实现零样本泛化。

通过联合流匹配目标(公式3)自回归闭环架构解耦噪声调度(Flash)38倍系统优化,DreamZero在真实机器人上实现了:

  • 数据效率:从异构非重复数据学习,无需重复演示

  • 零样本泛化:未见任务成功率2倍于SOTA VLA

  • 跨本体迁移:30分钟适应新机器人,打破硬件绑定

作为全面开源项目(模型+代码+数据集),DreamZero推动机器人社区从"大数据+大模型的暴力美学",转向"物理理解+高效迁移"的智能范式。当14B参数的视频扩散模型开始理解重力、接触与物体永久性,我们或许正在见证具身智能的临界点。

资源链接

创作不易,禁止抄袭,转载请附上原文链接及标题

相关推荐
Alvin千里无风4 小时前
在 Ubuntu 上从源码安装 Nanobot:轻量级 AI 助手完整指南
linux·人工智能·ubuntu
环黄金线HHJX.4 小时前
龙虾钳足启发的AI集群语言交互新范式
开发语言·人工智能·算法·编辑器·交互
Omics Pro4 小时前
虚拟细胞:开启HIV/AIDS治疗新纪元的关键?
大数据·数据库·人工智能·深度学习·算法·机器学习·计算机视觉
悦来客栈的老板5 小时前
AI逆向|猿人学逆向反混淆练习平台第七题加密分析
人工智能
KOYUELEC光与电子努力加油5 小时前
JAE日本航空端子推出支持自走式机器人的自主充电功能浮动式连接器“DW15系列“方案与应用
服务器·人工智能·机器人·无人机
萤火阳光5 小时前
13|自定义 Skill 创作:打造专属自动化利器
人工智能
我哪会这个啊5 小时前
SpringAlibaba Ai基础入门
人工智能
tianbaolc6 小时前
Claude Code 源码剖析 模块一 · 第六节:autoDream 自动记忆整合
人工智能·ai·架构·claude code
蓝色的杯子6 小时前
从 LLM 到 Agent Skill,龙虾的技术基础 · ② Token
人工智能
tq10866 小时前
AI时代的价值冲击——共识瓦解与转型阵痛
人工智能