个人思考3——世界动作模型

目录

一、前言

二、DreamZero:世界动作模型 (World Action Model)

三、Motus:统一的潜在动作世界模型

四、Self-Distillation:基于TRL的"自我蒸馏"算法

[五、阿里达摩院 RynnBrain 具身大脑基础模型](#五、阿里达摩院 RynnBrain 具身大脑基础模型)

六、DynamicVLA:用于动态物体操控的视觉-语言-动作模型

五、总结

1、五项技术核心定位速览

2、技术层次架构关系

3、未来融合应用场景

4、核心思想借鉴与融合创新点

[5、可能诞生的新架构:OmniEmbodied AI](#5、可能诞生的新架构:OmniEmbodied AI)

6、总结:五项技术的"化学反应"


一、前言

本文仅供参考,未经实验验证。

二、DreamZero:世界动作模型 (World Action Model)

基本信息

核心创新

DreamZero 是首个基于预训练视频扩散骨干网络 (Wan 2.1,140亿参数)构建的世界动作模型(WAM),旨在解决当前视觉-语言-动作(VLA)模型的关键缺陷:

对比维度 传统 VLA 模型 DreamZero (WAM)
学习范式 稠密状态-动作模仿 逆动力学学习(预测未来视觉状态+动作)
泛化能力 需大量重复示教,难以适应新环境 零样本泛化,跨实体迁移
数据依赖 依赖特定机器人平台的动作数据 可从异构数据(人类视频、其他机器人)学习
物理理解 学习"如何动" 学习"世界如何运作"(物理规律)

技术架构

  1. 输入:语言指令 + 本体感知状态 + 视觉观测历史

  2. 核心:自回归 DiT(Diffusion Transformer)主干网络,使用 Flow Matching 训练目标

  3. 输出:联合预测未来视频帧 + 对应动作

  4. 关键技术

    • 异步闭环执行:推理与动作执行解耦,实现实时控制

    • DreamZero-Flash:解耦视频与动作的噪声调度,1步扩散去噪即可输出动作

    • KV缓存优化:利用历史观测防止误差累积

性能突破

  • 推理速度 :通过38倍加速,在GB200上实现150ms延迟 ,支持7Hz实时闭环控制

  • 泛化能力 :相比顶尖VLA模型(π0.5),在新任务和新环境泛化上提升2倍以上

  • 跨实体迁移

    • 仅需10-20分钟 人类/其他机器人纯视频示范,未见任务性能提升42%

    • 仅需30分钟"玩耍数据"即可迁移到全新机器人本体,同时保持零样本能力

意义

Jim Fan 称其为机器人领域的 "GPT-2时刻"------意味着机器人首次能够通过文本指令执行从未训练过的任务,标志着从"特定技能学习"向"通用物理智能"的范式转变。

三、Motus:统一的潜在动作世界模型

基本信息

核心创新

Motus 旨在解决具身AI中的功能碎片化问题------传统方法将场景理解、未来状态预测、动作生成等认知功能割裂为独立系统。Motus 通过统一框架整合五大关键能力:

  1. 世界模型(World Models)

  2. 视觉-语言-动作模型(VLA)

  3. 逆动力学模型(IDM)

  4. 视频生成模型(VGM)

  5. 视频-动作联合预测模型

技术架构

1. Mixture-of-Transformers (MoT) 架构

集成三个专家模型,通过Tri-model Joint Attention(三模型联合注意力)实现跨模态融合:

专家模块 基础模型 功能
生成专家 Wan 2.2 5B 视频基础模型 视觉动态预测
理解专家 Qwen3-VL-2B 空间理解与物体定位
动作专家 自定义Transformer + AdaLN 动作生成与优化
2. 潜在动作(Latent Actions)表示

Motus 的最大创新是引入基于光流的潜在动作表示

  • 流程:光流(Optical Flow)→ DPFlow → RGB图像 → DC-AE(深度卷积变分自编码器)→ 潜在Token → 14维向量

  • 优势

    • 跨实体通用:光流作为像素级"delta动作",天然适配不同机器人本体

    • 数据高效:可利用无标注视频数据(仅90%光流重建损失 + 10%弱动作监督)

    • 维度对齐:14维向量与典型机器人动作空间匹配

3. UniDiffuser-style 调度器

灵活分配不同模态(视频、动作、语言)的时间步和噪声尺度,实现多模态生成的协调。

4. 六层数据金字塔(Data Pyramid)

从通用到专用的分层训练数据:

  1. Web数据(通用视觉知识)

  2. 人视频(物理交互先验)

  3. 合成数据(可控场景)

  4. 任务无关机器人数据(运动学)

  5. 多机器人轨迹(跨实体技能)

  6. 目标机器人演示(精确适配)

三阶段训练流程

  1. 阶段1:学习视觉动态(适配视频生成模型)

  2. 阶段2:学习动作表示(统一训练潜在动作)

  3. 阶段3:目标机器人特化(微调适配特定本体)

四、Self-Distillation:基于TRL的"自我蒸馏"算法

这里需要澄清:Self-Distillation 并非特指 TRL(Transformer Reinforcement Learning)框架,而是2026年初在强化学习领域涌现的一系列自蒸馏算法 的统称。其中最具代表性的是 SDPO(Self-Distillation Policy Optimization)

SDPO:自蒸馏策略优化

基本信息
  • 发布时间:2026年1月

  • 研究机构:ETH Zurich、MPI、MIT、Stanford 等

  • 论文标题:《Reinforcement Learning via Self-Distillation》

  • 代码https://github.com/lasgroup/SDPO

核心问题

传统 RLVR(Reinforcement Learning with Verifiable Rewards) 仅依赖标量结果奖励(如代码通过=1,失败=0),导致:

  • 信用分配瓶颈:无法定位错误发生的具体Token

  • 学习信号稀疏:全失败时(奖励均为0)无学习信号

  • 样本效率低:长程推理任务中收敛缓慢

核心创新:RLRF(富反馈强化学习)

SDPO 将环境升级为 RLRF(Reinforcement Learning with Rich Feedback) ,利用文本化反馈 (如编译器报错、测试用例输出、裁判评估)构建自教师(Self-Teacher)

plain

复制代码
传统 RLVR:  代码 → 运行 → 0/1 标量奖励
SDPO/RLRF: 代码 → 运行 → 详细报错信息 → 模型自省 → Token级修正信号
算法机制
  1. 采样阶段:当前策略生成轨迹(如代码)

  2. 反馈获取 :环境返回富文本反馈(如 IndexError: list index out of range

  3. 自教师构建:将反馈重新注入上下文,模型作为"事后诸葛亮"生成修正后的Token分布

  4. 蒸馏阶段:将反馈条件下的教师分布蒸馏回原始策略

关键技术优势
特性 传统 GRPO SDPO
反馈类型 标量奖励 富文本反馈(Token级)
信用分配 稀疏 密集(精确定位错误Token)
外部依赖 需奖励模型/教师模型 完全自举(Self-bootstrapping)
样本效率 基准 4倍提升(LiveCodeBench)
推理链长度 冗长(易陷入逻辑循环) 缩短7倍(更简洁有效)
实验成果
  • 训练效率 :在化学推理任务中,达到GRPO同等精度仅需1/10墙钟时间

  • 难题发现 :在极难任务(pass@64 < 0.03)上,仅需1/3尝试次数即可达到同等解发现率

  • 测试时计算:可应用于单问题反复优化,加速难题求解

相关自蒸馏方法(2026年1月集群发布)

除 SDPO 外,同期还有两项重要工作构成"自蒸馏三部曲":

方法 论文 核心应用场景 关键机制
SDFT Self-Distillation Enables Continual Learning 持续学习/灾难性遗忘 利用ICL构建自我教师,在线蒸馏
SDPO Reinforcement Learning via Self-Distillation 强化学习(代码/数学推理) 富反馈环境下的Token级自蒸馏
SPECS (相关框架) 偏好学习/格式对齐 自省式偏好构建,无需人工标注

统一范式总结

这三项技术的共同哲学是 "上下文即教师"(Context as Teacher)

  • SDFT:利用少样本示例(Few-shot)诱导高质量分布,再蒸馏给零样本模型

  • SDPO:利用环境反馈诱导"反思后"的分布,再蒸馏给原始策略

  • 本质 :模型通过In-Context Learning 能力生成监督信号,实现无外部教师的自我进化


技术关联与趋势

这三项技术代表了2026年初AI领域的两大趋势:

  1. 从"模仿"到"理解" :DreamZero 和 Motus 都强调通过预测未来来学习物理规律,而非简单模仿动作

  2. 从"外部监督"到"自我进化":Self-Distillation 系列算法证明模型可利用自身能力生成训练信号,减少对外部标注的依赖

三者结合可能催生完全自主的具身智能体:具备物理理解(WAM)、跨实体迁移(Latent Actions)、自我改进(Self-Distillation)能力的通用机器人。

五、阿里达摩院 RynnBrain 具身大脑基础模型

基本信息

开源规模

达摩院此次一次性全系列开源7个模型,创下具身智能领域开源之最:

  • 30B MoE(混合专家架构):业界首个30B参数规模的具身MoE模型,推理时仅激活3B参数

  • 全尺寸基础模型与后训练专有模型

  • 完整的推理与训练代码

  • 全新评测基准 RynnBrain-Bench(包含22项细粒度指标)

核心突破:两大关键能力

能力 技术细节 解决的问题
时空记忆 结构化存储完整行为历史,支持全局时空回溯 机器人"转身就忘",无法恢复被中断的任务
物理空间推理 文本语义与空间坐标信息交替协同推理 传统VLM的物理幻觉、脱离实际环境的推理

技术架构

  • 基础模型 :基于 Qwen3-VL 训练

  • 自研架构RynnScale 优化架构,同等资源下训练速度提升2倍

  • 训练数据 :超过 2000万对 高质量数据

  • MoE设计:30B总参数,推理仅激活3B,性能超越72B稠密模型

性能表现

16项具身开源评测榜单 上刷新SOTA,全面超越:

  • 谷歌 Gemini Robotics ER 1.5

  • 英伟达 Cosmos Reason 2

应用场景示例

官方演示视频《RynnBrain's Housework Diary》展示了机器人执行复杂家务的能力:

  • 按指令在洗碗池周围摆放餐具

  • 从水果中识别并抓取3个橙子放入碗中

  • 从冰箱取牛奶

  • 整理凌乱的客厅物品

行业意义

达摩院具身智能实验室负责人赵德丽表示:

"RynnBrain 代表'大脑'首次实现对物理世界的深度理解与可靠规划,是迈向大小脑分层架构下通用具身智能的关键一步。"

此次开源旨在降低三大门槛

  1. 研发门槛:告别重复造轮子,物理常识打包为公共基础设施

  2. 系统门槛:统一表征下导航、规划、操作模块认知状态共享

  3. 协作门槛:RynnBrain-Bench 提供统一评估标尺,驱动行业良性竞争

六、DynamicVLA:用于动态物体操控的视觉-语言-动作模型

基本信息

研究背景:VLA的"致命短板"

当前VLA模型(如π0.5、SmolVLA)在静态操作中表现优异,但在动态场景中面临三大挑战:

问题 具体表现
感知-执行间隙 推理期间物体持续移动,导致动作与环境状态错位
块间等待 必须等待当前动作块执行完毕才能开始下一次推理,造成控制中断
延迟敏感性 即使100-200ms延迟也可能导致抓取移动物体失败

三大核心创新

1. 超轻量级架构(0.4B参数)
  • 卷积视觉编码器 :采用 FastViT 替代Transformer,避免多帧输入下的Token爆炸

  • 截断语言模型:在速度与理解能力间取得平衡

  • 总参数量:仅0.4B(4亿),相比传统3B-7B VLA模型大幅缩减

2. 连续推理机制(Continuous Inference)

打破传统"推理→执行→推理"的串行模式:

  • 并行重叠:前一轮推理结束后立即启动下一轮,推理与执行同时进行

  • 零等待:消除块间等待时间,维持控制流连续性

  • 及时适应:对物体运动实现毫秒级响应

3. 隐式感知动作流(Latent-aware Action Streaming)

解决推理延迟导致的时序错位问题:

  • 丢弃过时动作:自动剔除因延迟而失效的早期预测动作

  • 优先最新动作:新旧动作序列重叠时,以最新预测覆盖旧序列

  • 时间强制对齐:确保执行指令与最新环境状态实时同步

DOM基准测试集(Dynamic Object Manipulation)

为填补动态操控数据空白,团队从零构建了首个系统性动态操控评测基准

维度 子维度 评估内容
交互能力 闭环反应性、动态适应、长程序列 对持续运动物体的实时控制与决策
感知理解 视觉理解、空间推理、运动感知 动态场景中的多模态理解能力
泛化鲁棒 视觉泛化、运动泛化、扰动鲁棒 分布外动态条件下的稳定性

数据规模

  • 仿真数据:20万条合成片段,覆盖2800个场景、206类物体(基于Isaac Sim)

  • 真实数据 :2000条真实世界片段,无需遥操作(采用双RGB相机实时追踪+状态机控制)

实验结果

在DOM基准上,DynamicVLA实现断层领先

指标 DynamicVLA 次优基线 提升倍数
平均成功率 47.06% 13.61% 3.5倍
闭环反应性 60.5% 21.0% 3倍
动态适应 38.5% - SOTA
长程序列 40.5% - SOTA
路径长度 2.50m - 最短
完成时间 8.53秒 - 最快

跨实体验证

在两种真实机器人平台上验证:

  • Franka Emika Panda(工业级协作机械臂)

  • AgileX PiPER(轻量级桌面机械臂)

均实现一致的动态操控能力,证明框架的跨实体通用性


技术对比与趋势洞察

维度 RynnBrain(阿里) DynamicVLA(南洋理工)
定位 大脑基础模型(认知+规划) 动作执行模型(实时控制)
架构 30B MoE(稀疏激活) 0.4B 稠密(极致轻量)
核心能力 时空记忆、物理推理 连续推理、动作流对齐
延迟优化 非核心目标 核心创新(毫秒级响应)
数据策略 2000万对高质量标注 20万仿真+2千真实(自动采集)
开源程度 全系列7模型+代码+基准 代码+基准+模型权重

互补性

这两项技术形成完美互补

  • RynnBrain 解决"大脑"问题:理解环境、规划任务、记忆状态

  • DynamicVLA 解决"小脑"问题:实时控制、动态响应、动作执行

未来可能的融合方向:RynnBrain 负责高层规划与推理,DynamicVLA 负责低层实时控制,构建完整的具身智能系统。

行业趋势

2026年初,具身智能领域呈现**"轻量化+专业化"**趋势:

  • 轻量化:0.4B参数的DynamicVLA证明小模型也能实现复杂动态控制

  • 专业化:针对动态操控、时空记忆等特定能力设计专门架构

  • 数据自动化:从遥操作向自动采集转变,解决数据瓶颈

  • 分层架构:大脑(认知)与小脑(控制)分离成为共识

五、总结

1、五项技术核心定位速览

技术 机构 核心定位 解决的关键问题 标志性创新
DreamZero 英伟达 世界动作模型 (WAM) 机器人"死记硬背",无法泛化到新任务 用视频扩散模型预测未来,零样本执行
Motus 南洋理工 统一潜在动作世界模型 具身AI功能碎片化(感知/预测/动作割裂) 光流潜在动作 + Mixture-of-Transformers
Self-Distillation/SDPO ETH Zurich等 自蒸馏强化学习 RL信号稀疏,无法定位错误Token 用环境反馈构建自教师,Token级蒸馏
RynnBrain 阿里达摩院 具身大脑基础模型 机器人"转身就忘",物理推理幻觉 时空记忆 + 物理空间推理
DynamicVLA 南洋理工 动态物体操控VLA 感知-执行延迟,无法抓移动物体 连续推理 + 隐式感知动作流

2、技术层次架构关系

复制代码
┌─────────────────────────────────────────────────────────┐
│  认知层(大脑):理解、规划、推理、记忆                      │
│  ├── RynnBrain: 时空记忆 + 物理空间推理                     │
│  └── DreamZero: 世界物理规律理解(通过视频预测)              │
├─────────────────────────────────────────────────────────┤
│  表征层(桥梁):动作表示、状态压缩、跨实体对齐                │
│  └── Motus: 光流潜在动作(跨机器人通用表示)                  │
├─────────────────────────────────────────────────────────┤
│  控制层(小脑):实时动作生成、动态响应、执行优化              │
│  ├── DynamicVLA: 连续推理 + 动作流对齐(毫秒级控制)          │
│  └── DreamZero-Flash: 异步闭环执行(7Hz实时)                │
├─────────────────────────────────────────────────────────┤
│  学习层(进化):自我改进、数据效率、持续学习                  │
│  └── Self-Distillation/SDPO: 富反馈自蒸馏 + 无教师进化        │
└─────────────────────────────────────────────────────────┘

3、未来融合应用场景

场景1:通用家庭服务机器人(终极愿景)

系统架构

复制代码
用户指令:"把桌上那杯正在滑动的咖啡拿到厨房,避开突然跑过来的猫"
        ↓
[RynnBrain - 大脑]
├── 时空记忆:回忆"猫通常从哪个方向来"、"厨房位置"
├── 物理推理:预测"咖啡滑动轨迹"、"猫的运动方向"
└── 任务规划:分解为"追踪咖啡→抓取→避障→运输→放置"
        ↓
[Motus - 表征层]
├── 光流潜在动作:将"滑动咖啡"的视觉运动编码为通用动作表示
└── 跨实体对齐:同一表示适配不同机械臂(Franka/PiPER/人形)
        ↓
[DreamZero - 世界模型]
├── 视频预测:模拟"如果这样抓,咖啡会不会洒"的未来场景
└── 动作生成:基于预测选择最优抓取姿态
        ↓
[DynamicVLA - 小脑控制]
├── 连续推理:100ms内响应咖啡滑动的新位置
├── 动作流对齐:丢弃过时指令,执行最新预测动作
└── 闭环控制:7Hz高频调整抓取轨迹
        ↓
[Self-Distillation - 持续进化]
├── 如果咖啡洒了:分析失败Token(握力?角度?时机?)
├── 自教师反思:生成"如果当时这样调整..."的修正分布
└── 在线蒸馏:更新策略,下次类似场景自动改进

场景2:工业柔性制造(近期落地)

痛点:产线需频繁切换产品型号,传统示教编程耗时数小时

融合方案

  • DreamZero:观看人类示范视频(10分钟),零样本掌握新装配动作

  • Motus:将人类动作转换为机器人潜在动作,无需重新标定

  • DynamicVLA:处理传送带上移动工件的实时抓取(延迟<150ms)

  • RynnBrain:记忆不同产品的装配顺序,处理异常中断恢复

  • Self-Distillation:夜班自动优化白天收集的失败案例,次日性能提升

场景3:灾难救援机器人(高动态环境)

挑战:环境未知、物体移动、通信中断、需自主决策

技术组合

  • RynnBrain时空记忆:在GPS失效时依靠视觉SLAM记忆路径

  • DreamZero物理推理:预测瓦砾堆稳定性,规划安全攀爬路线

  • DynamicVLA:抓取因余震滚落的石块(连续视觉反馈调整)

  • Self-Distillation:在无法回传数据的离线状态下,自我优化救援策略


4、核心思想借鉴与融合创新点

借鉴1:"预测未来"作为通用学习范式

来源 :DreamZero、Motus 思想 :不学习"如何动",而学习"世界如何运作" 可推广至

  • RynnBrain:不仅记忆过去,更预测未来状态(预测用户下一步需求)

  • Self-Distillation:预测"如果采取不同动作,反馈会如何变化"

  • 跨领域:自动驾驶(预测他车轨迹)、医疗(预测病情发展)

借鉴2:"潜在动作"作为跨模态通用语言

来源 :Motus 思想 :光流→潜在Token→动作向量,实现视觉与动作的统一表征 融合潜力

  • DreamZero:在潜在空间进行视频预测,而非原始像素(更高效)

  • RynnBrain:用潜在动作表示意图,而非自然语言(更精确)

  • DynamicVLA:动作流直接在潜在空间对齐,避免解码延迟

借鉴3:"自我蒸馏"实现无教师进化

来源 :SDPO、SDFT 思想 :利用模型自身的ICL能力生成监督信号,无需外部标注 应用拓展

  • DreamZero:用自蒸馏优化视频预测质量(预测→反思→修正→蒸馏)

  • RynnBrain:自我蒸馏提升物理推理准确性(错误预测→物理规则修正)

  • DynamicVLA:蒸馏"理想动作流"与"实际执行流"的差异,优化控制策略

借鉴4:"连续推理"打破离散决策瓶颈

来源 :DynamicVLA 思想 :推理与执行并行,新旧动作流重叠覆盖 启发其他技术

  • RynnBrain:规划与执行重叠,边想边做(人类式思维)

  • DreamZero:视频预测与动作生成并行,而非先预测再生成

  • 系统架构:大脑(RynnBrain)与小脑(DynamicVLA)并行运行,而非串行

借鉴5:"分层MoE"实现资源动态分配

来源 :RynnBrain(30B MoE)、Motus(Mixture-of-Transformers) 思想 :不同认知功能由不同专家处理,按需激活 未来方向

  • 全系统MoE化:感知专家、推理专家、动作专家、记忆专家动态组合

  • 任务自适应:简单任务激活3B参数,复杂任务激活30B,平衡性能与成本


5、可能诞生的新架构:OmniEmbodied AI

基于五项技术的融合,未来可能出现**"全栈具身智能"**统一框架:

复制代码
OmniEmbodied AI (假想架构)
├── 感知-预测-行动一体化(DreamZero + Motus)
│   └── 统一世界模型:视频、语言、动作在共享潜在空间交互
├── 认知-记忆-规划一体化(RynnBrain)
│   └── 神经符号记忆:可微分记忆检索 + 显式物理规则库
├── 决策-控制-学习一体化(DynamicVLA + Self-Distillation)
│   └── 元控制循环:执行→观察→反思→蒸馏→更新(毫秒级)
└── 跨实体-跨任务-跨环境泛化
    └── 光流潜在动作 + 自举式域适应

关键突破点

  1. 时间一致性:从RynnBrain的"长期记忆"到DynamicVLA的"毫秒级响应"形成连续时间轴

  2. 空间一致性:Motus的"光流潜在动作"作为从像素到关节的统一度量

  3. 进化一致性:Self-Distillation使系统在使用中自动适应新环境,无需重新训练


6、总结:五项技术的"化学反应"

组合 产生的协同效应 应用场景
DreamZero + RynnBrain 预测性记忆:不仅记住过去,更预测未来状态 长程任务规划
Motus + DynamicVLA 流畅动作流:跨实体通用表示 + 毫秒级实时控制 多机器人协作
Self-Distillation + 全部 自主进化:系统在使用中自我改进,无需人工干预 终身学习机器人
RynnBrain + DynamicVLA 认知-运动无缝衔接:大脑规划与小脑控制零延迟切换 人机协作
DreamZero + Self-Distillation 想象-反思-学习:通过自我模拟优化物理交互策略 危险环境训练

最终愿景 :一个具备物理常识 (DreamZero)、持续记忆 (RynnBrain)、通用动作语言 (Motus)、实时响应 (DynamicVLA)、自我进化 (Self-Distillation)能力的通用具身智能体,能够在任何环境中通过观察、尝试、反思,自主掌握新技能。

相关推荐
kkkkkkkkk_12011 小时前
【强化学习】09周博磊强化学习纲要学习笔记——第五课上
笔记·深度学习·学习·强化学习
rgb2gray1 小时前
优多元分层地理探测器模型(OMGD)研究
人工智能·算法·机器学习·回归·gwr
大猫子的技术日记1 小时前
2025 AI Agent 开发实战指南:从上下文工程到多智能体协作
前端·人工智能·bootstrap
Hoking1 小时前
milvus向量数据库介绍与部署(docker-compose)
人工智能·milvus·向量数据库
PPIO派欧云1 小时前
PPIO 上线 MiniMax M2.5:体验架构师级编程与高效 Agent 能力
人工智能·ai·大模型
laplace01231 小时前
deque+yield+next语法
人工智能·笔记·python·agent·rag
小王毕业啦1 小时前
2007-2024年 上市公司-投资者情绪数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
(; ̄ェ ̄)。1 小时前
机器学习入门(二十一)特征工程
人工智能·机器学习