【强化学习】5 异构机器人数据集的跨具身离线强化学习：形态感知分组与梯度冲突消解

异构机器人数据集的跨具身离线强化学习：形态感知分组与梯度冲突消解

1. 引言

1.1 机器人基础模型的数据瓶颈

机器人基础模型（Robot Foundation Models）的规模化预训练面临一个根本性的数据瓶颈：为每一种机器人平台单独采集高质量专家演示数据的成本极高，且难以覆盖真实世界中形态各异的机器人族群。四足、双足、六足等异构形态在状态维度、动作空间与动力学特性上存在本质差异，传统方法要求为每个平台独立训练策略，导致数据利用效率低下且泛化能力受限。

跨具身学习（Cross-Embodiment Learning）通过在一个共享网络中聚合来自多种形态机器人的轨迹数据，学习通用的控制先验，从而打破"一机一策"的壁垒。然而，现有跨具身方法普遍依赖行为克隆（Behavior Cloning, BC），其本质为监督学习，要求数据以高质量专家演示为主。一旦数据池中混入大量次优轨迹，BC的性能将急剧退化，无法利用这些"不完美但丰富"的交互数据。

1.2 离线强化学习与跨具身的交汇

离线强化学习（Offline Reinforcement Learning, Offline RL）为破解上述困境提供了理论可能。与BC不同，Offline RL的价值估计机制能够区分数据中的高价值与低价值行为，通过优势加权或保守Q值估计，从混合质量的数据中提炼有效策略。将Offline RL与跨具身学习结合，意味着可以同时利用两种数据扩展维度：横向扩展（跨形态聚合）与纵向扩展（混合专家与次优数据）。

然而，这一交汇并非简单的模块拼接。当异构机器人数据与次优轨迹同时涌入训练流程时，不同形态之间的策略梯度存在结构性冲突。四足机器人的有效步态更新可能干扰双足机器人的平衡学习，反之亦然。这种负迁移（Negative Transfer）现象在数据质量下降与形态多样性上升时呈指数级恶化，成为制约跨具身Offline RL规模化应用的核心瓶颈。

1.3 形态感知分组的核心思想

为系统性地消解跨具身训练中的梯度冲突，本文阐述一种基于形态相似度的分组策略------形态感知分组（Embodiment Grouping, EG）。其核心洞察在于：梯度冲突的严重程度与机器人形态之间的结构距离高度相关。形态相近的机器人（如不同型号的四足平台）共享相似的动力学约束与运动学结构，其策略梯度天然对齐；形态迥异的机器人（如四足与双足）则因控制问题的根本差异而产生相互抑制的梯度方向。

EG通过融合Gromov-Wasserstein（FGW）距离对机器人进行静态聚类，将异构数据集划分为若干形态同质的子组，在每个子组内独立执行策略梯度更新。这种"先分组、后聚合"的范式，在不引入动态冲突消解开销的前提下，将跨机器人梯度冲突转化为组内梯度协同，显著提升了次优数据场景下的训练稳定性与最终性能。
数据瓶颈
跨具身聚合
次优数据混入
梯度冲突
负迁移
形态分组
FGW聚类
组内协同
冲突消解
性能提升

2. 离线强化学习与跨具身训练基础

2.1 马尔可夫决策过程与离线学习设定

强化学习任务由马尔可夫决策过程（Markov Decision Process, MDP）定义，记为六元组 (S,A,P,r,γ,d)(\mathcal{S}, \mathcal{A}, P, r, \gamma, d)(S,A,P,r,γ,d)。其中 S\mathcal{S}S 为状态空间，A\mathcal{A}A 为动作空间，P(st+1∣st,at)P(s_{t+1} \mid s_t, a_t)P(st+1∣st,at) 为状态转移概率，r(s,a)r(s, a)r(s,a) 为即时奖励函数，γ∈(0,1)\gamma \in (0,1)γ∈(0,1) 为折扣因子，d(s0)d(s_0)d(s0) 为初始状态分布。

离线强化学习的核心设定在于：策略训练仅依赖预先采集的固定数据集 D={(st,at,st+1,rt,dt)}\mathcal{D} = \{(s_t, a_t, s_{t+1}, r_t, d_t)\}D={(st,at,st+1,rt,dt)}，训练过程中不允许与环境进行任何在线交互。这一约束使得策略必须学会从"他人经验"中推断最优行为，而非通过试错自主探索。数据集的质量分布直接决定了学习的上限：若 D\mathcal{D}D 中充斥低回报轨迹，策略需具备识别并规避这些次优模式的能力。

2.2 隐式Q学习算法

隐式Q学习（Implicit Q-Learning, IQL）是当前Offline RL领域的主流算法之一，其设计哲学在于避免显式计算Q值的最大化操作（该操作在离线设定中因分布外动作估计而引入严重偏差）。IQL通过期望回归（Expectile Regression）估计状态价值函数 V(s)V(s)V(s) 与状态-动作价值函数 Q(s,a)Q(s,a)Q(s,a)，核心目标函数为：

LV(ψ)=E(s,a)∼D $Lτexpectile(Qθ\^(s,a)−Vψ(s))$ L_V(\psi) = \mathbb{E}_{(s,a) \sim \mathcal{D}} \left $L_{\\tau}\^{\\text{expectile}} \\left( Q_{\\hat{\\theta}}(s,a) - V_{\\psi}(s) \\right) \\right$ LV(ψ)=E(s,a)∼D $Lτexpectile(Qθ\^(s,a)−Vψ(s))$

其中 Lτexpectile(u)=∣τ−1u<0∣⋅u2L_{\tau}^{\text{expectile}}(u) = |\tau - \mathbb{1}_{u<0}| \cdot u^2Lτexpectile(u)=∣τ−1u<0∣⋅u2 为不对称平方损失，τ∈(0.5,1)\tau \in (0.5, 1)τ∈(0.5,1) 控制对高优势动作的聚焦程度。当 τ→1\tau \to 1τ→1 时，V(s)V(s)V(s) 趋近于 Q(s,a)Q(s,a)Q(s,a) 的上包络，即对高价值状态的乐观估计。

Q函数的更新采用贝尔曼一致性约束：

LQ(θ)=E(s,a,s′)∼D $(r+γVψ\^(s′)−Qθ(s,a))2$ L_Q(\theta) = \mathbb{E}_{(s,a,s') \sim \mathcal{D}} \left $\\left( r + \\gamma V_{\\hat{\\psi}}(s') - Q_{\\theta}(s,a) \\right)\^2 \\right$ LQ(θ)=E(s,a,s′)∼D $(r+γVψ\^(s′)−Qθ(s,a))2$

策略 πϕ\pi_{\phi}πϕ 则通过优势加权的行为克隆进行更新：

Lπ(ϕ)=−E(s,a)∼D $exp(β\cdotA(s,a))\cdotlogπϕ(a∣s)$ L_{\pi}(\phi) = -\mathbb{E}_{(s,a) \sim \mathcal{D}} \left $\\exp\\left( \\beta \\cdot A(s,a) \\right) \\cdot \\log \\pi_{\\phi}(a\|s) \\right$ Lπ(ϕ)=−E(s,a)∼D $exp(β\cdotA(s,a))\cdotlogπϕ(a∣s)$

其中 A(s,a)=Qθ(s,a)−Vψ(s)A(s,a) = Q_{\theta}(s,a) - V_{\psi}(s)A(s,a)=Qθ(s,a)−Vψ(s) 为优势函数，β\betaβ 为温度系数。物理意义极为清晰：IQL并非盲目模仿数据集中的所有行为，而是根据估计的优势值对样本进行指数加权------高优势样本获得强模仿信号，低优势样本被自然抑制。这一机制使得IQL能够从混合质量数据中"去粗取精"，在次优数据占优的场景下显著优于纯行为克隆。

2.3 跨具身表示的统一编码

跨具身训练的核心工程挑战在于：不同机器人的状态维度与动作维度各不相同。例如，四足机器人可能具有 121212 维关节角度与 333 维足部接触力，而双足机器人可能具有 202020 维关节角度与 222 维足底力矩。直接拼接这些异构向量将导致维度不匹配，无法共享网络参数。

统一机器人形态表示架构（Unified Robot Morphology Architecture, URMA）通过将观测分解为形态无关的通用部分 ogo_gog 与形态特定的关节/足部观测集合 {oj}j∈J\{o_j\}{j \in \mathcal{J}}{oj}j∈J、{of}f∈F\{o_f\}{f \in \mathcal{F}}{of}f∈F 来解决这一问题。具体而言：

通用流：包含全局信息（如质心位置、基座速度、目标指令），所有机器人共享相同的维度；
关节流：每个关节的观测（角度、角速度、力矩）构成可变长集合，通过描述符条件化的注意力机制（Attention Mechanism）聚合为固定长度的隐向量；
足部流：每个足端的观测（接触力、接触状态）同样经注意力聚合为固定隐向量。

三类隐向量拼接后形成形态无关的核心表示 zˉ\bar{z}zˉ，后续的策略头与价值头均基于此表示进行预测。这种"先解耦、后聚合"的设计，使得单个网络能够同时服务 161616 种形态迥异的机器人平台，而无需为每种形态维护独立的参数副本。
观测输入
通用流
关节流
足部流
注意聚合
核心表示
策略头
价值头
动作输出
价值输出

3. 异构数据集的构建与分析

3.1 十六平台运动控制基准

为系统评估跨具身Offline RL的性能边界，构建了一套覆盖 161616 种异构机器人平台的运动控制基准数据集。平台构成如下：

四足机器人 （999 种）：Unitree A1、Go1、Go2，以及多种自定义四足形态；
双足机器人 （666 种）：Unitree H1、G1，Cassie，以及多种自定义双足形态；
六足机器人 （111 种）：自定义六足平台。

所有机器人在MuJoCo物理仿真器中进行运动学建模，执行前进（Forward，目标速度 +1+1+1 m/s）与后退（Backward，目标速度 −1-1−1 m/s）两种行走任务。奖励函数为稠密的运动奖励，包含基座速度跟踪、能量消耗惩罚与姿态稳定性奖励。

3.2 三级数据质量分层

每个机器人平台的数据集按质量划分为三个层级，每层级均为 111M 步：

专家数据（Expert）。由完全收敛的PPO策略采集，轨迹回报高度集中于最优区域。该数据集模拟了理想条件下的人工专家演示。

专家回放数据（Expert Replay） 。包含从PPO训练初始阶段直至达到专家水平（约 90%90\%90% 最终性能）的全部交互历史，经均匀稀疏化后压缩至 111M 步。该数据集覆盖了从随机探索到成熟策略的完整学习曲线，质量分布呈宽谱特征。

七成次优回放数据（70% Suboptimal Replay） 。由 700700700K 步早期次优PPO交互与 300300300K 步后期专家级交互混合而成。虽然高回报片段在数量上仅占少数，但由于专家级episode通常更长，其时步占比约为 30%30\%30%。该数据集模拟了真实世界中最常见的数据形态：大量低成本次优数据与少量高成本专家数据并存。
PPO训练
早期探索
中期学习
后期收敛
次优数据
混合数据
专家数据
70次优
专家回放
纯专家

3.3 回报分布的统计特征

三类数据集的回报分布呈现显著差异：

Expert：回报直方图高度集中于高回报区，方差极小，几乎所有episode均达到目标性能；
Expert Replay：回报分布呈宽展形态，从接近零的随机探索到接近最优的成熟行为均有覆盖，反映了学习过程的完整演化；
70% Suboptimal：回报质量整体左移，大量episode聚集于低回报区，仅少数长episode维持较高回报。

这一分布差异直接解释了为何Offline RL在次优数据场景中优于BC：BC对所有样本一视同仁地模仿，必然被大量低质量行为拖垮；而IQL的优势加权机制能够自动降低低回报样本的梯度贡献，同时保留次优数据中蕴含的可恢复结构（如部分有效的步态片段）。

4. 跨具身训练中的迁移现象分析

4.1 正迁移：跨形态预训练的加速效应

留一法（Leave-One-Out）实验验证了跨具身预训练对下游单机器人微调的加速作用。具体流程为：从数据集中排除某一目标机器人，在剩余 151515 种机器人的混合数据上进行IQL预训练，随后将预训练网络权重迁移至目标机器人进行微调。

实验结果表明，经过跨具身预训练的网络在Badger（四足）、Unitree G1（双足）与Cassie（双足）等平台上均展现出显著更快的收敛速度。预训练网络已习得通用的运动控制先验（如腿部协调节律、质心动量管理），微调阶段仅需适应特定形态的动力学细节，而非从零学习行走这一根本技能。这一结果证实了跨具身学习作为预训练策略的有效性------它相当于为每种机器人提供了一个"已学会走路的大脑"，只需针对具体身体进行"校准"。

4.2 负迁移：次优数据与形态多样性的双重放大

然而，正迁移并非无条件成立。当数据集中次优轨迹比例上升时，跨具身训练开始出现负迁移（Negative Transfer）------联合训练的性能反而低于各机器人单独训练的性能。

在Expert Forward数据集上，跨具身IQL与单机器人IQL性能基本持平，表明高质量数据下异构形态的联合学习是安全的。但在70% Suboptimal Forward数据集上，跨具身模型的平均性能显著低于单机器人模型。更细致的观察揭示了一个关键规律：

四足机器人 （Unitree A1、Go1、Go2、Badger）在跨具身训练中反而获得性能提升。原因在于四足平台在数据集中占据数量优势（9/169/169/16），相似形态之间的正迁移效应足以抵消次优数据的噪声；
双足机器人（Unitree H1、G1）遭受严重性能退化。由于双足数据在混合池中占比较低，其独特的平衡控制需求被四足主导的梯度方向所压制，导致策略无法有效学习双足特有的步态模式。

这一发现揭示了一个核心原理：负迁移的触发条件是次优数据比例与形态多样性同时达到临界阈值。单独的高多样性（Expert数据）或单独的次优数据（单形态训练）均不会引发负迁移，二者的叠加才会产生破坏性的干扰效应。
否
是
专家数据
高多样性安全
次优数据少
次优数据
单形态安全
高多样性危险
负迁移
正迁移
负迁移

4.3 梯度冲突的量化诊断

为从机理层面解释负迁移，引入梯度余弦相似度（Gradient Cosine Similarity）作为诊断工具。对于机器人对 (i,j)(i, j)(i,j)，定义其策略梯度在训练过程中的平均余弦相似度：

Cij=1T∑t=1T⟨gi(t),gj(t)⟩∥gi(t)∥⋅∥gj(t)∥C_{ij} = \frac{1}{T} \sum_{t=1}^{T} \frac{\langle g_i^{(t)}, g_j^{(t)} \rangle}{\|g_i^{(t)}\| \cdot \|g_j^{(t)}\|}Cij=T1t=1∑T∥gi(t)∥⋅∥gj(t)∥⟨gi(t),gj(t)⟩

其中 gi(t)g_i^{(t)}gi(t) 为第 ttt 次迭代中机器人 iii 的策略梯度。Cij>0C_{ij} > 0Cij>0 表示梯度方向一致，二者相互促进；Cij<0C_{ij} < 0Cij<0 表示梯度方向相反，二者相互抑制。

实验揭示了以下规律：

次优数据比例与负梯度对比例正相关 。随着数据集中次优轨迹占比从Expert（0%0\%0%）提升至70% Suboptimal（70%70\%70%），机器人对之间出现负余弦相似度的比例单调上升。次优数据引入了更多的噪声梯度方向，使得不同形态的最优更新路径更容易发生冲突。

形态多样性与负梯度对比例正相关 。当参与训练的机器人类型从单一形态扩展至 161616 种异构形态时，负梯度对的比例同样显著增加。形态差异越大，其控制问题的结构差异越大，梯度方向的冲突概率越高。

梯度对齐与迁移性能强相关。统计检验表明，机器人对之间的梯度余弦相似度与其实际迁移性能存在显著正相关。高相似度对（如不同四足之间）几乎总是产生正迁移，而低相似度对（如四足与双足之间）在次优数据条件下倾向于产生负迁移。

5. 形态感知分组方法

5.1 形态距离的定义与度量

形态感知分组的核心前提是：存在一种能够量化机器人形态结构相似度的距离度量。本文采用融合Gromov-Wasserstein（Fused Gromov-Wasserstein, FGW）距离，该距离同时考虑机器人的图结构拓扑（关节连接关系）与节点特征（关节属性）。

将每个机器人建模为一个图 G=(V,E,F)G = (V, E, \mathbf{F})G=(V,E,F)，其中 VVV 为关节节点集合，EEE 为边集合（表示关节间的物理连接），F∈R∣V∣×d\mathbf{F} \in \mathbb{R}^{|V| \times d}F∈R∣V∣×d 为节点特征矩阵（如关节类型、运动范围等）。两个机器人图 GiG_iGi 与 GjG_jGj 之间的FGW距离定义为：

FGW(Gi,Gj)=min⁡T∈Π(μi,μj)∑u,v,u′,v′∣dEi(u,u′)−dEj(v,v′)∣2⋅Tuv⋅Tu′v′+α⋅∑u,v∥Fu(i)−Fv(j)∥2⋅Tuv\text{FGW}(G_i, G_j) = \min_{\mathbf{T} \in \Pi(\mu_i, \mu_j)} \sum_{u,v,u',v'} \left| d_{E_i}(u,u') - d_{E_j}(v,v') \right|^2 \cdot T_{uv} \cdot T_{u'v'} + \alpha \cdot \sum_{u,v} \|\mathbf{F}_u^{(i)} - \mathbf{F}v^{(j)}\|^2 \cdot T{uv}FGW(Gi,Gj)=T∈Π(μi,μj)minu,v,u′,v′∑ dEi(u,u′)−dEj(v,v′) 2⋅Tuv⋅Tu′v′+α⋅u,v∑∥Fu(i)−Fv(j)∥2⋅Tuv

其中 T\mathbf{T}T 为两个图节点分布之间的耦合矩阵，Π(μi,μj)\Pi(\mu_i, \mu_j)Π(μi,μj) 为边缘约束下的传输计划集合，dEd_EdE 为图上的最短路径距离，α∈ $0,1$ \alpha \in $0,1$ α∈ $0,1$ 平衡结构项与特征项的权重。

FGW距离的物理意义极为直观：它度量了将一个机器人的"身体图"变形为另一个机器人的"身体图"所需的最小代价。四足机器人之间的FGW距离较小，因为它们具有相似的躯干-四肢拓扑；四足与双足之间的距离较大，因为二者的支撑结构（四足稳定 vs 双足动态平衡）与关节配置存在本质差异。

5.2 基于FGW距离的静态聚类

基于FGW距离矩阵，采用层次聚类（Hierarchical Clustering）或谱聚类（Spectral Clustering）将 161616 种机器人划分为 MMM 个形态组 {G1,G2,...,GM}\{\mathcal{G}_1, \mathcal{G}_2, \dots, \mathcal{G}_M\}{G1,G2,...,GM}。聚类过程完全静态：在训练开始前一次性完成，训练过程中分组结构保持不变。

聚类结果呈现清晰的形态同质性：所有四足机器人被归入同一组（或细分为 222 个子组），所有双足机器人归入另一组，六足机器人视距离阈值可能独立成组或并入四足组。这种分组并非基于任务表现或数据质量，而是纯粹基于机器人的物理形态结构，因此具有跨任务、跨数据集的通用性。

5.3 组内策略梯度更新机制

形态感知分组的核心操作在于策略更新阶段的重构。标准跨具身训练中，所有机器人的样本被混合为一个全局批次，执行单一梯度下降步：

ϕ←ϕ−η⋅1∣D∣∑(s,a)∈D∇ϕLπ(s,a;ϕ)\phi \leftarrow \phi - \eta \cdot \frac{1}{|\mathcal{D}|} \sum_{(s,a) \in \mathcal{D}} \nabla_{\phi} L_{\pi}(s,a; \phi)ϕ←ϕ−η⋅∣D∣1(s,a)∈D∑∇ϕLπ(s,a;ϕ)

EG将此过程替换为分组更新：首先将全局批次按机器人所属形态组拆分为 MMM 个子批次 {Dm}m=1M\{\mathcal{D}m\}{m=1}^{M}{Dm}m=1M，然后对每个组独立执行梯度更新：

for m=1 to M:ϕ←ϕ−η⋅1∣Dm∣∑(s,a)∈Dm∇ϕLπ(s,a;ϕ)\text{for } m = 1 \text{ to } M: \quad \phi \leftarrow \phi - \eta \cdot \frac{1}{|\mathcal{D}m|} \sum{(s,a) \in \mathcal{D}m} \nabla{\phi} L_{\pi}(s,a; \phi)for m=1 to M:ϕ←ϕ−η⋅∣Dm∣1(s,a)∈Dm∑∇ϕLπ(s,a;ϕ)

物理意义解读：每个形态组在参数空间中沿着"本组共识"的方向更新策略，避免了异构组之间的梯度相互抵消。由于URMA架构的通用表示设计，所有组共享同一组网络参数，因此分组更新本质上是让同一网络在不同数据子集上依次微调，而非维护 MMM 个独立网络。

值得注意的是，EG仅应用于策略（Actor）的更新，而价值函数（Critic）仍使用全局批次进行单次更新。这一设计基于以下洞察：负迁移主要源于策略梯度的方向冲突，而非价值估计的偏差。将EG扩展至Critic不仅未带来额外性能增益，反而因 MMM 次独立的Critic更新增加了 wall-clock 训练时间，性价比不足。
全局批次
按形态拆分
组1批次
组2批次
组M批次
组1梯度
组2梯度
组M梯度
参数更新
共享网络

5.4 与现有冲突消解方法的对比

为验证EG的有效性，将其与两类现有冲突消解方法进行对比：

投影冲突梯度（PCGrad）。在每次迭代中，若两个任务的梯度方向冲突（余弦相似度为负），则将其中一个梯度投影到另一个梯度的正交补空间上，从而消除冲突分量。PCGrad是一种动态冲突消解方法，无需预先定义任务分组，但引入了额外的投影计算开销。

选择性分组（Selective Grouping, SEL）。根据梯度相似度的实时估计动态地将任务划分为若干组，每组内执行平均梯度更新。SEL的聚类过程是训练时自适应的，能够捕捉训练动态中的梯度结构变化。

实验结果表明，在70% Suboptimal数据集上，相对于标准IQL基线：

PCGrad平均提升 7.15%7.15\%7.15%；
SEL平均提升 18.33%18.33\%18.33%；
EG平均提升 33.99%33.99\%33.99%。

EG的压倒性优势源于其利用了Offline RL场景下的一个独特先验：形态结构是静态且可预知的，而梯度冲突的根源恰恰在于形态差异。PCGrad与SEL虽能缓解冲突，但它们在每次迭代中被动地"发现"冲突并修正，缺乏对冲突根源的先验利用；EG则通过一次性的形态聚类，将冲突预防性地隔离在不同组之间，从根本上消除了跨形态干扰。

6. 实验验证与性能分析

6.1 基准方法与评估协议

实验在构建的 161616 平台运动控制基准上进行，覆盖六种数据集变体（Expert / Expert Replay / 70% Suboptimal ×\times× Forward / Backward）。评估指标为训练末期的平均 episode 回报，报告 555 个随机种子的均值与标准误。

核心对比方法包括：

BC + CE：行为克隆在跨具身数据上的基线；
IQL：标准隐式Q学习，无跨具身适配；
IQL + CE：标准跨具身IQL，无冲突消解；
IQL + PCGrad：IQL结合投影冲突梯度；
IQL + SEL：IQL结合选择性分组；
IQL + EG：IQL结合形态感知分组。

此外，验证EG在不同Offline RL骨干上的泛化性，将其应用于TD3+BC与纯BC，考察其作为通用插件的有效性。

6.2 跨具身Offline RL vs 行为克隆

在Expert Forward与Expert Backward数据集上，BC与IQL性能基本持平（BC: 63.3163.3163.31 vs IQL: 63.3963.3963.39）。这是因为专家数据质量均一，BC的模仿目标与IQL的优势加权目标在此条件下趋于一致。

然而，随着数据质量下降，二者差距急剧拉大：

Expert Replay Forward ：BC (49.7149.7149.71) 显著落后于 IQL (54.6154.6154.61)；
70% Suboptimal Forward ：BC (30.5230.5230.52) 大幅落后于 IQL (36.6236.6236.62)。

这一结果直接验证了Offline RL在处理次优数据上的固有优势。BC对数据质量高度敏感，一旦低质量轨迹占比上升，其性能呈断崖式下跌；IQL则通过优势加权的内在筛选机制，将梯度注意力（Attention Mechanism）聚焦于数据中的高价值片段，从而在噪声数据中保持相对稳健的学习能力。

6.3 形态感知分组的性能增益

在70% Suboptimal数据集上，EG展现出最显著的性能提升。以IQL为骨干时：

数据集	IQL	IQL+PCGrad	IQL+SEL	IQL+EG
70% Suboptimal Forward	基线	+7.15%+7.15\%+7.15%	+18.33%+18.33\%+18.33%	+33.99%+33.99\%+33.99%
70% Suboptimal Backward	基线	小幅提升	中等提升	+30%++30\%++30%+

EG的增益在次优数据场景中尤为突出，而在Expert数据上提升相对温和。这完全符合理论预期：Expert数据本身梯度冲突较少，分组带来的边际收益有限；次优数据则因噪声梯度方向众多，形态分组的价值被充分释放。

在TD3+BC骨干上，EG同样带来约 19.5%19.5\%19.5% 的平均提升（从 46.4346.4346.43 提升至 51.3951.3951.39）；在纯BC上，EG提升约 26.3%26.3\%26.3%。这表明形态感知分组并非特定于IQL的技巧，而是一种适用于多种Offline目标的通用冲突消解范式。
数据质量
专家数据
回放数据
次优数据
EG增益小
EG增益中
EG增益大
性能曲线

6.4 梯度对齐与形态相似度的关联验证

为验证"形态相似度预测梯度对齐"这一核心假设，对TD3+BC骨干进行相关性分析。计算所有机器人对之间的FGW距离（经min-max归一化后转化为相似度 1−FGWnorm1 - \text{FGW}_{\text{norm}}1−FGWnorm）与训练过程中的平均梯度余弦相似度，绘制散点图并进行皮尔逊相关检验。

结果显示，形态相似度与梯度余弦相似度之间的皮尔逊相关系数 r=0.711r = 0.711r=0.711，p=8.89×10−20p = 8.89 \times 10^{-20}p=8.89×10−20，表明二者存在极强的正相关关系。四足机器人之间在形态相似度矩阵中形成紧密聚类，在梯度相似度矩阵中同样呈现高内聚性；双足机器人亦然。跨形态对（四足-双足）在两种矩阵中均表现为低相似度。

这一统计验证为EG方法提供了坚实的理论支撑：形态距离确实是梯度冲突的有效代理变量。因此，基于形态的静态分组不仅在工程上简洁高效，在理论上也是梯度冲突预测的最优先验之一。

6.5 消融实验：Actor-only vs Actor+Critic分组

为探究将EG扩展至Critic更新的必要性，设计EG-Actor+Critic变体：在每次外层迭代中，Critic按形态组拆分后执行 MMM 次独立更新，随后执行标准的EG Actor更新。

在70% Suboptimal Replay Forward数据集上的结果表明：EG-Actor+Critic相较于Actor-only EG未带来有意义的性能提升，在 M=4M=4M=4 时甚至略有下降。同时，Critic-side分组使 wall-clock 训练时间显著增加，因为每个组都需要独立执行一次Critic的前向与反向传播。

结论清晰：负迁移的主要驱动力是策略梯度冲突，而非价值估计偏差。Actor-only EG已足以消解核心冲突，将EG扩展至Critic属于过度工程化，性价比不佳。

7. 结论与展望

7.1 核心结论

本文从数据集构建、理论分析与算法设计三个层面，系统阐述了异构机器人跨具身离线强化学习的挑战与解决方案。核心结论可概括为四点：

第一，Offline RL是次优跨具身数据的有效利用器。在包含大量次优轨迹的混合数据上，IQL等Offline RL方法显著优于行为克隆，其优势加权机制能够自动筛选高价值样本，实现"从噪声中提炼信号"。

第二，跨具身预训练具有显著的下游加速效应。经过多形态数据预训练的网络在单机器人微调时收敛更快，表明通用运动控制先验可被有效迁移至 unseen 形态。

第三，负迁移由次优数据与形态多样性的双重叠加触发。单独的次优数据或单独的高多样性均不会引发严重负迁移，二者的交汇才会导致跨机器人梯度冲突的爆发。

第四，形态感知分组是消解梯度冲突的最简最优解。基于FGW距离的静态聚类将异构梯度隔离在不同组内，其性能增益远超动态冲突消解方法（PCGrad、SEL），且实现简洁、无运行时开销。

7.2 未来方向

当前EG采用静态分组策略，聚类结果在训练前确定且全程不变。未来可探索动态分组机制：在训练过程中根据实时的梯度相似度估计与数据质量变化，自适应地调整分组结构。此外，在已识别的兼容组内，引入对比学习目标学习组专属的具身表示，可能进一步强化组内知识共享。最后，将跨具身Offline RL框架从仿真运动控制扩展至真实机器人操作任务（如抓取、装配），验证其在sim-to-real迁移中的鲁棒性，是迈向实用化机器人基础模型的必经之路。