生成式机器人策略的仿真 - 真实协同训练：结构化表征对齐

摘要

协同训练将有限的域内真实世界数据与海量代理数据（如仿真数据或跨本体机器人数据）结合，被广泛用于训练生成式机器人策略。尽管该方法在实验中取得成功，但决定其有效性的内在机理仍缺乏清晰认知。

本文通过理论分析与实验研究，探究仿真-真实数据协同训练的机理，识别出决定模型性能的两大内在效应。其一为结构化表征对齐 ，体现跨域表征对齐与域可区分性之间的平衡，是影响下游任务性能的核心因素；其二为重要性重加权效应，源于动作权重的域相关调制，起次要调节作用。

本文通过玩具模型的控制变量实验、大量仿真-仿真与仿真-真实机器人操作实验验证了上述效应。该分析为近期协同训练技术提供了统一解释，并提出一种简易方法，在现有方法基础上实现稳定提升。从更广泛的视角来看，本文旨在揭示协同训练的内在工作机制，推动该方向的研究发展。

1 引言

数据稀缺仍是机器人领域的核心瓶颈，促使研究者使用低成本、海量的代理数据，如仿真数据与跨本体数据。尽管这些数据源包含丰富的任务相关信息，但会引入显著的域间隙，导致实际应用中难以实现有效的知识迁移。近期，一种简易的协同训练范式------以数据混合比例联合训练域内真实数据与代理数据------在仿真-真实、人-机器人迁移场景中展现出优异的实验性能。尽管已有研究提供了有价值的实验分析，但协同训练的机理仍不明确：其内部机制大多被视为黑箱，决定其有效性的因素尚未厘清。

本文聚焦于研究上述协同训练范式，重点针对扩散模型架构下的仿真-真实数据协同训练，该架构是现代生成式机器人策略的主流代表。

本文首先从理论层面分析多域数据混合训练的学习目标，揭示出独立影响协同训练性能的两大内在效应：

结构化表征对齐：具备双重特性。一方面，表征在域不变子空间中实现跨域对齐，使任务相关知识得以迁移；另一方面，表征保留域相关因素的可区分性，让动作能够自适应真实世界，而非直接照搬代理域的动作。这种平衡是协同训练有效的关键，决定了自适应动作迁移能否实现。
重要性重加权效应：指动作权重中域相关的对数几率调制。该效应在观测条件空间中局部起作用，控制训练中各域样本对动作决策的贡献程度，由数据混合比例、数据集规模与域间隙共同决定。

通过玩具模型的控制变量协同训练实验，本文验证了两种效应的存在，发现结构化表征对齐是模型性能优异的核心因素，重要性重加权效应仅起调节作用。基于上述发现，本文进一步提出问题：在真实机器人操作任务中是否存在类似效应？这些认知如何指导设计更有效的协同训练算法？

本文第二部分通过全面的仿真-仿真、仿真-真实机器人操作实验回答上述问题。在端到端协同训练系统中，数据混合比例通常是唯一显式控制变量，却会同时影响两种内在效应。实验发现，在合适的混合比例区间（本文称为平衡混合比例）内，局部与全局空间的结构化表征对齐可隐式出现，且对齐强度与任务成功率呈中等到强相关。同时，保留域可区分性是实现有效真实世界动作自适应的必要条件；若该特性丢失，表征对齐与性能甚至会呈负相关。上述观测为理解现有协同训练技术提供了统一视角。

本文在实验任务中基准测试了三种近期代表性协同训练技术：基于最优传输的特征正则化、对抗判别域自适应、无分类器引导。实验发现，每种方法仅侧重结构化表征对齐的单一维度，常导致性能提升不稳定或边际化。受此分析启发，本文提出一种简易的协同训练技术组合方法，在促进表征对齐的同时保留域可区分性，并为推理阶段的知识迁移提供更可控的接口。该方法相比现有方法实现了稳定且显著的性能提升。

综上，本文贡献如下：

首次通过理论分析与实验验证，系统揭示协同训练的内在工作机理。
发现结构化表征对齐可被隐式学习，并通过全面机器人操作实验验证对齐与可区分性的作用与要求。
以本文分析为框架基准测试代表性协同训练技术，据此提出一种稳定提升性能的简易方法，为新算法设计开辟方向。

2 协同训练的理论分析

生成式机器人策略采用扩散/Flow Matching、自回归Transformer等生成式建模架构，实现观测到动作的映射。鉴于其在工业界的普及与应用，本文分析聚焦于最主流的策略形式------扩散/Flow Matching策略。下文以"扩散"统称扩散与Flow Matching模型，二者在本文分析框架下等价。

本文首先阐释结构化表征对齐在扩散策略协同训练中的重要性（2.1节），随后分析重要性重加权效应（2.2节）。

2.1 结构化表征对齐

训练扩散策略等价于联合学习特征编码器（将观测映射到潜在空间）与策略模型（将学习到的表征映射到动作空间）。形式化而言，给定目标域有限机器人数据集，源域海量数据集（），以混合比例训练扩散策略模型，学习目标为：

其中。本文可证明该目标存在解析最优解，且采用得分参数化（证明见附录B.1）：

其中

为核函数，衡量当前观测与数据集中观测的匹配程度。因此，经验最优得分函数的行为高度依赖学习到的观测表征。

基于诱导的源域与目标域表征对齐程度，本文提出协同训练的三种场景：

Disjoint：源域与目标域的观测表征处于完全不同的簇。目标域推理时，，动态权重接近1，策略忽略源域数据，无法实现源到目标的正向迁移。
Structured aligned：策略学习到任务相关、域不变的表征，同时保留充足域相关信息，源域与目标域观测表征相近但不坍缩。此时动作预测由源域邻点有效引导，且以目标域数据为主导。这与本文开篇定义的结构化表征对齐一致。
Overlapping：源域与目标域观测表征完全对齐，但域间隙导致对应动作存在差异。策略预测无法感知真实环境，在源域与目标域动作上呈现双峰分布，引发负迁移。

2.2 重要性重加权效应

混合比例直接为迁移过程提供额外调制。对任意特定观测，公式(3)可简化为：

其中，。

推理阶段较大的时刻，数据受噪声大幅扰动，，模型近似为两域全局平均；较小的时刻，域间隙使集中于单一域，模型预测收敛到该域，。

任意时刻，通常以训练样本为中心呈高斯分布。对每个数据点定义：。进一步简化可得融合得分函数：

为每个动作数据的最优得分（推导见附录B.2）。如图2所示，该效应通过在训练阶段重加权两域得分函数，重塑学习到的动作采样分布。

图2 重要性重加权通过训练阶段重加权得分函数，重塑学习到的动作分布。

特殊情况下，相对权重比满足以下关系：

调制幅度受、数据集规模与域间隙共同影响，该特性的详细刻画见附录B.3。

综上，扩散策略协同训练的有效性主要由两大内在效应决定：

结构化表征对齐；
重要性重加权效应。

基于上述理论分析，本文接下来通过实验证据验证上述核心观点。

3 控制变量玩具实验

两种效应在端到端协同训练中相互作用，共同影响学习动态。为解耦并理解二者对协同训练的独立贡献，本文设计先导玩具实验。该简化设置中，策略模型以预训练特征编码器定义的输入分布为输入，输入每一维对应潜在空间的主方向。本文采用4层MLP作为扩散模型架构。

实验设计：策略模型通过协同训练学习映射。手动定义两个流形与，分布不同，分别对应源域与目标域的内在数据分布。从两个流形采样配对数据点、，满足，且部分采样如图3所示。该设计模拟目标域数据通常更稀疏、有限、多样性低于源域数据的常见场景。沿两个主方向对齐两个流形，在剩余主方向调整二者距离，构建不同表征对齐场景，结果如图3所示。

图3 控制变量玩具实验可视化。协同训练目标域约30个样本、源域约3000个样本。每列纵向的预测样本差异体现表征对齐的影响；每行横向的差异体现混合比例控制的重要性重加权效应的变化。

发现1：玩具模型行为与理论分析一致。如2.1节所述的三种表征场景下，协同训练模型表现出截然不同的行为：

分离场景：预测结果接近仅用目标域数据训练的模型，模型可轻松区分两域，但无法从源域迁移知识（即学习到的映射）。由于数据量有限，模型倾向于记忆每个数据点，无法在训练分布内插值、分布外泛化。
结构化对齐场景：该设置为最优区间，模型在表征对齐与域可区分性之间取得平衡，输出分布能以高保真度重建。
重叠场景：模型预测在源域与目标域之间随机分布，无法有效区分两域，将二者视为等同，阻碍迁移知识的有效自适应。

另一方面，如2.2节所述，数据混合比例通过重要性重加权效应对该能力产生独立但次要的影响。具体而言，它调整源域知识迁移与目标域自适应的相对幅度。如图3横向对比所示，当较小时（如左数第二列），去噪早期阶段源域数据贡献增加，输出噪声更大。

此外，本文观察到一个有趣现象：在合适的协同训练设置下，模型可对分布外（OOD）区域做出合理预测，具备OOD泛化能力。值得注意的是，该能力并非简单复制源域知识，而是源于学习到的表征中保留的分布偏移，这对精准OOD预测至关重要。

发现2：结构化表征对齐是模型高性能的核心驱动因素。由于本文拥有真实映射，以L2损失定量衡量结果，如图4所示。重要性重加权效应受底层表征对齐约束：仅调整混合比例无法弥补表征对齐不佳的问题，也无法在对齐不足时诱导OOD泛化（如红色与蓝色曲线，混合比例对最终性能几乎无影响）。基于此，本文对两个因素进行方差分解分析，发现结构化表征对齐的变化可解释约50%的损失方差，混合比例的重要性重加权效应仅解释20%。由此可见，结构化表征对齐是模型行为的核心决定因素，仅作为调节因子，微调源域与目标域知识的平衡。

将玩具实验类比到仿真-真实协同训练，本文提出假设：底层机理一致，结构化表征对齐使仿真知识有效迁移，同时保留充足域可区分性以实现动作自适应。关键问题在于：该机理能否在实际仿真-真实场景中被实验观测到，而非仅停留在概念直觉层面。

此外，发现2引出更深层问题：若数据混合比例是唯一显式控制变量，结构化表征对齐能否在端到端协同训练中出现？为回答该问题，本文在真实世界机器人操作任务上开展大量实验。

图4 混合比例与距离增量扫描下的L2损失，以及方差分解。表征重叠（红线）或分离（蓝线）时，协同训练模型对混合比例不敏感。重要性重加权效应（蓝柱）仅能解释20%的性能方差。

4 面向操作任务的仿真-真实协同训练

为在机器人操作（尤其是仿真-真实协同训练）中验证本文假设的实验证据，本文设计一系列仿真-仿真、仿真-真实协同训练实验（图5）。仿真-仿真实验用于显式控制源域与目标域的域间隙，确保观测结果在不同域间隙下保持一致。所有实验均采用基于Transformer的扩散模型，以ResNet18为视觉主干网络，端到端训练。

任务集：选取robosuite中的三个操作任务：螺母装配（NutAssembly）、杯子悬挂（MugHang）、杯子清洁（MugCleanup）。相比常规拾取放置任务，螺母装配与杯子悬挂需要更精准的控制，包含密集物体交互；杯子悬挂的动作包含更多旋转运动；杯子清洁则需要模型具备较长时域推理与执行能力。这些任务涵盖机器人操作的多项核心挑战。

环境设置：仿真-真实实验遵循Maddukukuri等人的方案，校准相机位姿与内参，最小化仿真与真实世界的相机对齐差异。仿真-仿真实验使用相同的源仿真环境，创建第二个目标仿真环境并引入域间隙。

域间隙分类：仿真与真实世界数据存在多方面域偏移。为识别协同训练在不同间隙下的效果，本文从视觉外观与环境物理两个维度分解间隙，手动引入间隙并构建三种仿真-仿真协同训练设置：纯视觉、纯物理、视觉-物理。

数据准备：目标域每个任务收集50条人类演示数据；源域使用MimicGen基于50条人类演示合成约3000条轨迹。遵循Wei等人的定义，设为自然混合比例，、分别为真实世界与仿真数据集规模，等价于直接拼接仿真与真实数据集。本节实验中，协同训练策略的混合比例扫描范围为。

4.1 表征对齐观测

表征对齐可在端到端协同训练中隐式学习。实验首先使用UMAP可视化不同混合比例下，仿真与真实世界观测特征在网络不同层的潜在嵌入，重点观察视觉茎网络后的特征与编码器主干的最终层输出嵌入（包含本体感知、语言等其他模态信息）。令人意外的是，在特定混合比例区间内，视觉特征呈现局部几何对齐，几何结构高度相似；观测特征在全局空间呈现表征对齐，如图6所示。这揭示了表征对齐在网络中的演化过程。

本文进一步使用Gromov-Wasserstein距离与Wasserstein距离分别量化局部与全局表征对齐。调整数据混合比例时，观察到清晰的相关性：真实与仿真特征距离越小，潜在几何结构越相似，对齐强度越高，如图6所示（完整可视化见附录D.2）。该趋势在仿真-真实、仿真-仿真实验中均一致成立。结果表明，协同训练对数据混合比例敏感，因为调整会同时大幅改变核心内在效应------表征对齐本身。换言之，混合比例不仅重加权源域与目标域数据的贡献，还会隐式重塑学习到的表征空间。Kareer等人的研究中也观察到类似现象，对齐源于预训练数据的缩放。

表征对齐与模型性能呈正相关。计算上述对数变换后的Wasserstein距离与对应成功率的相关性，每个检查点策略在仿真中评估200次rollout、真实世界中评估30次rollout，计算平均成功率。本文报告皮尔逊相关系数（捕捉线性关联）与斯皮尔曼等级相关系数（对非线性但单调关系鲁棒）。如图7所示，除仿真-仿真协同训练的纯物理条件外，所有设置下两种相关系数均处于0.6~0.8区间，值<0.04，表明表征对齐与模型性能存在中等到强的正相关。部分情况下某一相关系数较低（约0.4），提示关系可能为非线性或部分单调，而非严格线性。重要的是，该整体模式在三个任务中均一致观测到。

抑制表征对齐会导致性能下降。为进一步验证表征对齐的因果效应，本文在视觉-物理仿真-仿真设置中开展最小消融实验，显式鼓励表征分离。受对抗域自适应启发，保留域分类器作用于学习到的表征，但故意移除梯度反转层，从而鼓励域判别特征而非域不变特征。三个任务的性能均持续下降。

4.2 域可区分性观测

尽管表征在低维空间对齐，浅层神经网络仍可轻松区分。本文开展简易线性探针实验，在编码器主干输出嵌入上训练2层MLP用于二分类域判别。令人意外的是，即便表征在低维空间看似对齐良好，简易MLP在所有设置的验证集上均可轻松实现约100%的准确率。这表明表征处于部分对齐场景，协同训练策略确实保留了域相关信息。

可区分性是动作自适应到目标域的必要条件。各任务在各设置下的成功率如图8所示。

仿真-仿真的四种设置中，纯物理策略在杯子清洁、螺母装配任务上的成功率甚至低于视觉-物理策略。由于大幅改变物体物理参数而保持视觉外观一致，协同训练策略更难区分两种环境。

有趣的是，如图7所示，纯物理策略中表征对齐与模型性能的相关性甚至变为负，表明盲目表征对齐可能有害。

5 协同训练方法的统一视角

尽管已有大量协同训练技术被提出，但这些方法为何在部分场景有效、部分场景失效仍不明确。本节以本文发现为视角，重新审视三种代表性协同训练方法，说明其实验表现可通过表征对齐与域可区分性的平衡得到合理解释。具体而言，本文将现有方法按侧重跨域对齐或保留域相关信息分为两类。

5.1 现有协同训练方法

基于最优传输（OT）的方法旨在通过显式匹配表征分布（潜在空间或轨迹空间），对齐仿真与真实世界数据。近期研究将协同训练建模为联合最优传输问题，软耦合仿真与真实域样本以最小化全局差异：

通常用两域间的Wasserstein距离计算。本文假设下，该类方法强力鼓励跨域表征重叠，将仿真与真实观测推入共享潜在空间。本文实现Cheng等人提出的OT正则化协同训练，仅移除离线数据配对采样器。

对抗域自适应（ADDA）方法同样追求域不变表征，训练判别器区分仿真与真实数据，同时学习编码器试图欺骗判别器：

可简单用二分类交叉熵损失实现。本文假设下，对抗对齐同样侧重跨域重叠，但通过表征不可区分性隐式实现，而非显式分布匹配。本文按Tzeng等人的方案实现该方法。

无分类器引导（CFG）为协同训练引入独特机制，推理阶段在条件策略与无条件策略间插值。该方法不在训练阶段强制表征对齐，而是通过引导尺度调制真实信号的影响。本文假设下，CFG通过保留独立条件通路保留域可区分性，同时支持仿真知识的可控迁移：

本文实现时，在视觉编码器后的观测特征上拼接独热嵌入作为环境标签，按Wei等人的建议将设为0。

CFG-ADDA：简易组合方法 。从本文解释框架来看，现有协同训练方法的核心差异在于表征对齐与域可区分性的权衡。OT与ADDA类方法侧重对齐，域差异较小时有益，域差异较大时易引发负迁移；相反，无分类器引导保留域感知能力，支持灵活的信息共享。该统一视角明确了现有方法的优劣，启发本文提出组合策略，显式平衡两个竞争目标。本文简单组合CFG与ADDA技术，命名为CFG-ADDA：添加独热嵌入作为环境标签以支持域引导，同时通过对抗判别器鼓励其余表征维度对齐。训练细节见附录C。

通过上述域不变与域相关特征的显式解耦，本文为得分插值系数提供新视角：由于仅丢弃环境标签，实际代表所有域的平均对数概率梯度方向。相比训练阶段通过重要性重加权效应迁移知识，可作为推理阶段更灵活的"平均知识"迁移控制变量。本文默认将CFG-ADDA的设为-0.5。

5.2 实验与分析

仿真-仿真实验：在协同训练模型基础上实现上述技术，开展视觉-物理仿真-仿真协同训练实验，结果如图9所示。本文将数据混合比例分为两组：平衡混合与非平衡混合。平衡混合比例的性能持续优于非平衡混合。

平衡混合下（仿真与真实数据占比相当），面向对齐的方法（OT、ADDA）在各任务上稳定提升性能，表明训练阶段两域均被充分观测时，表征对齐有效促进跨域知识迁移。相反，非平衡混合下，仅侧重对齐的方法性能显著下降，尤其在杯子清洁、杯子悬挂任务上。该行为表明，某一域主导训练数据时，强制强对齐会使学习到的表征偏向次优不变性，阻碍真实世界自适应。显式保留域信息的CFG在该区间鲁棒性更强，但峰值性能仍有限。值得注意的是，CFG-ADDA在两种区间均实现优异性能：结合对抗对齐与显式域条件，平衡混合下充分利用仿真的可迁移结构，非平衡混合下保留域可区分性。

仿真-真实实验：由于平衡混合比例是有效协同训练的主要选择，本文仅在该区间开展真实世界评估。观测结果与仿真-仿真实验一致，本文提出的方法在真实世界中实现更稳定、显著的提升，在这些挑战性任务上成功率达到约74%。

引导尺度消融：与仅使用正值不同，本文在(-2, 2)区间扫描CFG与CFG-ADDA的。如图10所示，本文提出的方法在不同引导尺度下均持续优于CFG。此外，两种方法在时均实现提升。因此，本文不采用传统放大动作差异的设置，而是建议设置，在推理阶段主动从代理域迁移知识。

上述结果支持本文核心发现：有效的仿真-真实协同训练同时需要表征对齐 （支持知识迁移）与域可区分性（支持自适应行为）。

6 讨论与未来工作

为理解协同训练的工作机制，本文结合理论分析与大量实验验证，提出统一解释框架。该框架下，本文识别出有效协同训练的两大内在效应：结构化表征对齐与重要性重加权。结构化表征对齐的有效性需要谨慎平衡两个竞争目标：沿域不变维度对齐表征以支持迁移，同时保留域相关维度以维持自适应能力。该视角统一了多种现有协同训练技术，并验证了简易组合策略的有效性。本文进一步明确混合比例与数据集规模的影响，为未来大规模协同训练实验缩小搜索空间。附录D.5提供使用指南。总体而言，本文希望揭示协同训练背后的机理，指导设计更具理论依据、更鲁棒的协同训练算法。

局限性与未来工作：首先，本文实验主要聚焦仿真-仿真、仿真-真实协同训练场景。尽管在人-机器人协同训练等其他场景观察到定性相似趋势，但在更广泛域中验证本文发现的通用性是未来重要方向。其次，本文分析集中于两种已识别机理的最终效果，未显式刻画动态学习过程中的相互作用------尤其是混合比例如何在训练过程中塑造表征学习。此外，本文未探究批次大小等实际因素的潜在影响。第三，本文研究表征的相对关系，而非内在结构，即未直接刻画模型最终学习到的表征类型。理解这些表征的本质（尤其是跨域泛化的表征），可为结构化表征对齐的出现提供更深层见解。最后，尽管本文基于模仿学习，协同训练范式可广泛应用于其他学习场景，包括世界模型与强化学习。本文希望推动该方法在更多域的探索，最终深化对协同训练的理解与有效应用。