论文阅读“DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI“

目录

    • 论文概述
    • [1. 研究背景与动机](#1. 研究背景与动机)
      • [1.1 现有方法的局限性](#1.1 现有方法的局限性)
      • [1.2 核心观点](#1.2 核心观点)
    • [2. 方法论详解](#2. 方法论详解)
      • [2.1 三阶段训练流程](#2.1 三阶段训练流程)
      • [2.2 模型架构](#2.2 模型架构)
        • [(1) VLM主干网络](#(1) VLM主干网络)
        • [(2) Flow Matching动作专家](#(2) Flow Matching动作专家)
      • [2.3 关键技术创新](#2.3 关键技术创新)
        • [创新点1: 混合梯度策略(Hybrid Training)](#创新点1: 混合梯度策略(Hybrid Training))
        • [创新点2: 具身空间脚手架(Embodied Spatial Scaffolding)](#创新点2: 具身空间脚手架(Embodied Spatial Scaffolding))
    • [3. 数据策略详解](#3. 数据策略详解)
      • [3.1 预训练数据构成(1.13T tokens)](#3.1 预训练数据构成(1.13T tokens))
      • [3.2 中期训练数据构成(200M samples)](#3.2 中期训练数据构成(200M samples))
      • [3.3 数据处理技术](#3.3 数据处理技术)
    • [4. 实验结果分析](#4. 实验结果分析)
    • [5. 技术贡献总结](#5. 技术贡献总结)
      • [5.1 理论贡献](#5.1 理论贡献)
      • [5.2 工程贡献](#5.2 工程贡献)
    • [6. 局限性与未来工作](#6. 局限性与未来工作)
      • [6.1 当前局限](#6.1 当前局限)
      • [6.2 未来方向](#6.2 未来方向)
    • [7. 结论](#7. 结论)

摘要

Moving beyond the traditional paradigm of adapting internet-pretrained models to physical tasks, we present DM0, an Embodied-Native Vision-Language-Action (VLA) framework designed for Physical AI.

Unlike approaches that treat physical grounding as a fine-tuning afterthought, DM0 unifies embodied manipulation and navigation by learning from heterogeneous data sources from the onset.

Our methodology follows a comprehensive three-stage pipeline: Pretraining, Mid-Training, and Post-Training. First, we conduct large-scale unified pretraining on the Vision-Language Model (VLM) using diverse corpora---seamlessly integrating web text, autonomous driving scenarios, and embodied interaction logs---to jointly acquire semantic knowledge and physical priors.

Subsequently, we build a flow-matching action expert atop the VLM. To reconcile high-level reasoning with low-level control, DM0 employs a hybrid training strategy: for embodied data, gradients from the action expert are not backpropagated to the VLM to preserve generalized representations, while the VLM remains trainable on non-embodied data.

Furthermore, we introduce an Embodied Spatial Scaffolding strategy to construct spatial Chain-of-Thought (CoT) reasoning, effectively constraining the action solution space. Experiments on the RoboChallenge benchmark demonstrate that DM0 achieves state-of-the-art performance in both Specialist and Generalist settings on Table30.

结论

In this work, we presented DM0, a pioneering Embodied-Native Vision-Language-Action (VLA) framework that fundamentally rethinks the development of generalist robot policies. Deviating from the conventional paradigm of adapting internet-pretrained models via post-hoc fine-tuning, DM0 integrates physical grounding from the onset through a unified pretraining strategy on heterogeneous data sources---spanning web corpora, autonomous driving logs, and embodied trajectories.

We introduced a comprehensive three-stage training pipeline (Pre-, Mid-, and Post-Training) underpinned by two key technical innovations: a hybrid gradient strategy that decouples action expert learning from VLM semantic preservation, and an Embodied Spatial Scaffolding mechanism that leverages spatial Chain-of-Thought (CoT) to rationalize complex physical tasks.

Empirical results on the Table30 benchmark demonstrate that DM0 achieves state-of-the-art performance, surpassing strong baselines such as Spirit-v1.5 and 𝜋0.5 in both Specialist and Generalist settings. These findings validate our core hypothesis: constructing VLA models with intrinsic, multi-source physical priors is a more effective path towards robust Physical AI than adapting purely semantic models.

未来工作

While DM0 establishes a strong baseline for Embodied-Native VLAs, several promising directions remain for future exploration:

Scaling the Embodied-Native Paradigm: Currently, DM0 operates as a lightweight model. We plan to investigate the scaling laws of the Embodied-Native framework by training on significantly larger datasets (e.g., combining simulation data with real-world logs) and increasing model parameter size (e.g., to 7B or 30B scales) to observe emergent physical reasoning capabilities.

Expanding Multi-Modal Perception: Physical interaction often requires cues beyond vision and text. Future iterations of DM0 will incorporate additional modalities such as tactile feedback, audio, and depth information directly into the unified pretraining stage, further enhancing the model's fine-grained manipulation skills in occluded or dynamic environments.

Long-Horizon Reasoning & World Models: Although our Spatial Scaffolding improves reasoning, extremely long-horizon tasks remain a challenge. We aim to integrate World Model capabilities into the DM0 framework, allowing the agent to mentally simulate action consequences and plan over longer temporal horizons before execution.

我将为您详细分析这篇关于DM0的论文。这是一篇关于具身智能(Embodied AI)的Vision-Language-Action(VLA)模型的技术报告。

论文概述

标题 : DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
作者 : DM0 Team, Dexmal & StepFun
核心贡献: 提出了一种"具身原生"(Embodied-Native)的VLA框架,从根本上改变了将互联网预训练模型适配到物理任务的传统范式。


1. 研究背景与动机

1.1 现有方法的局限性

当前VLA研究主要遵循"预训练-然后适配"(Pretrain-then-Adapt)范式:

  • 模型首先在静态互联网数据(如图文对)上预训练
  • 然后在有限的具身数据上微调

关键问题:

  1. 缺乏内在物理感知(Lacks intrinsic physical grounding)
  2. 模块碎片化(Module fragmentation):导航与操作分离
  3. 灾难性遗忘(Catastrophic forgetting):追求运动技能时会损害模型的通用推理能力

1.2 核心观点

真正的通用机器人需要一个"具身原生"框架------从训练初期就将具身感知运动数据与语言和视觉数据统一对待。


2. 方法论详解

2.1 三阶段训练流程

复制代码
┌─────────────────────────────────────────────────────────────┐
│  Stage 1: Pretraining (预训练)                                │
│  • 数据: 1.13T tokens                                        │
│  • 目标: 学习通用视觉-语言能力 + 物理先验知识                     │
│  • 组成: Web数据 + 自动驾驶数据 + 具身数据                      │
├─────────────────────────────────────────────────────────────┤
│  Stage 2: Mid-Training (中期训练)                             │
│  • 数据: 200M samples                                        │
│  • 目标: 引入动作预测,建立跨具身机器人数据连接                   │
│  • 关键: 添加Flow Matching动作专家                            │
├─────────────────────────────────────────────────────────────┤
│  Stage 3: Post-Training (后训练)                              │
│  • 数据: 50M samples                                         │
│  • 目标: 针对特定具身平台专业化,稳定视觉运动对齐                 │
│  • 策略: 缩小具身多样性,聚焦目标平台                           │
└─────────────────────────────────────────────────────────────┘

2.2 模型架构

DM0采用双组件架构

(1) VLM主干网络
  • 基础模型: Qwen3-1.7B LLM
  • 感知编码器 (PE): 400M参数,基于Bolya et al., 2025
  • 输入处理 :
    • 多视角图像 → 调整至728×728
    • 通过两个3×3卷积层(stride=2)下采样4倍
(2) Flow Matching动作专家
  • 规模: 500M参数
  • 机制: 基于Lipman et al., 2022的流匹配技术
  • 功能: 根据VLM提取的KV缓存生成连续控制动作

推理模式(两种):

  1. 直接模式: 从多模态观察和语言指令直接预测连续动作序列
  2. 推理模式: 先生成具身推理文本,再基于这些文本生成动作

数学形式:
π θ ( l ^ , a t : t + H ∣ o t , l ) = π θ ( l ^ ∣ o t , l ) ⋅ π θ ( a t : t + H ∣ o t , l , l ^ ) \pi_{\theta}(\hat{l}, \mathbf{a}{t:t+H} | \mathbf{o}t, l) = \pi{\theta}(\hat{l} | \mathbf{o}t, l) \cdot \pi{\theta}(\mathbf{a}{t:t+H} | \mathbf{o}_t, l, \hat{l}) πθ(l^,at:t+H∣ot,l)=πθ(l^∣ot,l)⋅πθ(at:t+H∣ot,l,l^)

2.3 关键技术创新

创新点1: 混合梯度策略(Hybrid Training)

动机: 联合优化语言目标和连续控制目标会损害预训练VLM中的语义表示

解决方案:

  • 具身数据 : 动作专家的梯度不反向传播到VLM(保护语义知识)
  • 非具身数据: VLM继续可训练, refine通用语言和视觉理解
  • VLM监督: 预测离散动作token,编码有利于下游动作预测的语义

损失函数 :
L total ( θ ) = λ L AR ( θ ) + L FM ( θ ) \mathcal{L}{\text{total}}(\theta) = \lambda \mathcal{L}{\text{AR}}(\theta) + \mathcal{L}_{\text{FM}}(\theta) Ltotal(θ)=λLAR(θ)+LFM(θ)

其中:

  • L AR \mathcal{L}_{\text{AR}} LAR: 自回归交叉熵损失(文本 + 离散动作token)
  • L FM \mathcal{L}_{\text{FM}} LFM: Flow Matching损失(连续动作)
创新点2: 具身空间脚手架(Embodied Spatial Scaffolding)

核心思想: 构建空间思维链(Chain-of-Thought)推理,有效约束动作解空间

层次化预测框架(从抽象到具体):

层级 任务 功能
1 子任务预测 (Subtask) 将整体任务分解为可解释的步骤序列
2 目标边界框预测 (Target BBox) 在视觉观察中定位目标对象
3 末端执行器轨迹预测 (EEF Trajectory) 预测主相机视角下的未来轨迹
4 离散动作预测 (Discrete Action) 预测表示机器人控制的离散token
5 连续动作输出 (Continuous Action) 最终生成可执行的动作序列

理论意义: 每个中间目标作为结构化信息瓶颈,抑制任务无关变化,保留语义和几何意义结构。


3. 数据策略详解

3.1 预训练数据构成(1.13T tokens)

类别 占比 内容描述
Vision-Language 91.0% Web-sourced交错数据、图文对(LAION, COYO等)
Web-sourced 18.5% Common Crawl, StepCrawl, 关键词搜索
Knowledge 6.5% 常识知识、物体识别
OCR 2.0% 图像转文本、文档理解、代码生成
Education 1.0% K-12、大学、成人教育材料
Grounding 0.9% 边界框、点级定位、计数
VQA 0.3% 视觉问答
GUI 0.2% 界面描述、轨迹、元素定位
Navigation 0.5% 导航轨迹(Habitat)
Embodied 0.6% 物体/区域定位、空间关系描述

关键设计: 将具身数据形式化为grounding和caption QA任务,使模型同时学习物理空间先验和语义知识。

3.2 中期训练数据构成(200M samples)

数据混合策略(见图4):

复制代码
Vision-Language (31.5%)
├── Cambrian-737k
├── Cambrian-10M (过滤后)
├── LLaVA OneVision 1.5
└── 自收集多模态数据

Embodied Reasoning (ER) (7.2%)
├── 任务分解
├── 子任务预测
├── 动作QA
├── 时间推理
└── 任务进度估计

Simulation Data (17.7%)
├── LIBERO (4个任务)
├── RoboTwin 2.0 (50个任务)
└── Habitat自收集导航轨迹

Single-Arm Data (23.9%)
├── 自收集数据 (Franka, UR5, ARX-5, UMI)
└── 开源数据 (OXE, Fuse)

Dual-Arm Data (19.7%)
├── 自收集ALOHA数据
└── 开源数据 (RoboMind, Agibot Alpha, Galaxea)

3.3 数据处理技术

轨迹表示:

  • 存储为episodic JSONL记录
  • 每时间步包含:多视角观察、语言指令、本体感受状态
  • 可选:子任务、目标框、2D夹具航点轨迹

对话增强:

  • 设计500个不同的对话模板
  • 训练时随机选择,引入语言多样性
  • 防止对特定提示结构的过拟合

动作形式化:

  • 构建50步短视界窗口
  • 归一化后量化为255-bin词汇表作为特殊动作token
  • VLM预测token化轨迹,动作专家回归连续轨迹

4. 实验结果分析

4.1 评估基准: RoboChallenge

  • 任务数: 30+ 长程桌面操作任务(Table30)
  • 要求: 多步推理、空间理解、精确连续控制
  • 领域: 物体拾取、放置、重排、工具使用、组合指令跟随

4.2 主要结果

Specialist设置(专家模型)
模型 参数量 平均成功率
DM0 2B 62.00%
Spirit-v1.5 4B 51.00%
GigaBrain-0.1 3B 51.67%
π0.5 3B 42.67%

关键优势:

  • 参数量最小(2B),性能最高
  • 在复杂长程任务上表现突出:
    • "arrange fruits in basket": 100% (对比: Spirit-v1.5 80%)
    • "plug in network cable": 80% (对比: 其他模型0-20%)
    • "sweep the rubbish": 80% (对比: 其他模型20-60%)
Generalist设置(通用模型)
模型 参数量 成功率/任务分数
DM0 2B 37.3 / 49.08
π0.5 3B 17.67 / 31.27
π0 3B 9.0 / 20.22

关键优势:

  • 性能是π0.5的2倍以上
  • 在需要精确操作和长程推理的任务上表现卓越:
    • "stack color blocks": 100/100 (π0.5: 10/30)
    • "place shoes on rack": 100/98.5 (π0.5: 0/20)
    • "search green boxes": 100/95.5 (π0.5: 0/3)

4.3 多模态理解能力

DM0在保持机器人控制能力的同时,保留了核心VQA功能:

具身场景(Table 3):

  • 场景描述
  • 物体检测与属性识别
  • 机器人臂抓取物体识别

通用场景(Table 4):

  • OCR(书籍封面识别)
  • 场景描述(城市街道、室内环境)

思维链推理(Table 5):

  • 子任务分解("整理玩具" → 具体步骤)
  • 初始子任务识别
  • 特定子任务规划

移动应用潜力(Table 6):

  • GUI理解(美团外卖、Steam界面)
  • 操作指导("应该按哪个按钮")

5. 技术贡献总结

5.1 理论贡献

  1. 重新定义VLA训练范式: 提出"具身原生"概念,证明从训练初期整合物理数据比后期适配更有效

  2. 混合梯度策略的形式化: 通过数学上解耦动作专家和VLM的梯度流,解决了多目标优化的冲突问题

  3. 层次化空间推理框架: 将复杂的物理任务分解为从语义到几何再到控制的渐进式学习路径

5.2 工程贡献

  1. 三阶段可扩展训练流程: 提供从通用基础到专业部署的清晰路径

  2. 大规模异构数据整合: 成功融合Web、自动驾驶和机器人数据(1.13T tokens)

  3. 高效架构设计: 2B参数模型超越3-4B参数竞争对手,证明架构效率的重要性


6. 局限性与未来工作

6.1 当前局限

  1. 模型规模: 目前为轻量级模型(2B参数),尚未探索更大规模的涌现能力

  2. 模态局限: 主要依赖视觉和文本,缺乏触觉、音频、深度信息

  3. 长程推理: 尽管有空间脚手架,极长程任务仍是挑战

6.2 未来方向

方向 具体计划
规模化 训练7B或30B参数模型,结合仿真与真实世界数据
多模态感知 整合触觉反馈、音频、深度信息到统一预训练阶段
世界模型 集成世界模型能力,实现动作后果的心理模拟
长程规划 增强长时域推理和规划能力

7. 结论

DM0代表了VLA领域的重要范式转变:

核心洞察: 构建具有内在、多源物理先验的VLA模型,比纯粹从语义模型适配是通往鲁棒物理AI更有效的路径。

通过统一预训练混合梯度策略空间思维链脚手架三大技术创新,DM0在2B参数规模上实现了:

  • 专家设置62%成功率(超越之前SOTA 10%以上)
  • 通用设置37.3%成功率(超越π0.5两倍多)

这项工作为下一代具身智能模型的发展奠定了重要基础,特别是在数据效率、架构设计和训练策略方面提供了可复用的方法论。


开源资源:

相关推荐
AI周红伟1 小时前
周红伟:2026年10个AI预言:迈向AGI通用人工智能体时代
大数据·人工智能·机器学习·大模型·agi·智能体·seedance
tzc_fly2 小时前
大语言模型SFT后训练:SFT,DFT,ASFT,ProFit,BFT,RAFT
人工智能·机器学习·语言模型
Suryxin.2 小时前
从0开始复现nano-vllm「llm_engine.py」
人工智能·python·深度学习·ai·vllm
Testopia2 小时前
车道线检测:传统计算机视觉在自动驾驶中的应用
人工智能·计算机视觉·自动驾驶
阿杰学AI2 小时前
AI核心知识109—大语言模型之 Industry Agent Operations Specialist(简洁且通俗易懂版)
大数据·人工智能·ai·语言模型·agent·智能体·行业智能体运营师
我会冲击波2 小时前
UI UX Pro Max:给 AI 请个设计师
人工智能·程序员
MaxStormBot2 小时前
WPS Office Skill v1.3.0 发布:全格式图文混排 + Markdown 三件套转换
人工智能
Asher阿舍技术站2 小时前
【AI基础学习系列】五、AIGC从创意到创造
人工智能·学习·aigc·进阶
ZhengEnCi2 小时前
05. 文本分块策略设计
人工智能