TA-VLA——将关节力矩感知融入VLA中：无需外部力传感器，即可完成汽车充电器插入

前言

今25年9.13日，我在微博上写道：

"我们为何24年起聚焦具身开发呢
23年我们做了一系列大模型应用，发觉卷飞了，c端搞不过大厂的工程迭代流量获取，b端拼不过大厂的品牌，且大厂外人人都可以搞
然，++具身不一样，本体厂商忙于运控，学校侧重科研，互联网大厂还处于具身布局早期，而我司『七月在线』完全可以用1-2年的时间完成积累++，加速推动科研到实际生产力的尽快落地"
故，加速推动具身前沿技术到实际生产力的落地 ，算是我司『新的使命』了
毕竟工厂从自动化到智能化，是真真正正的新一轮工业革命，谁叫：科学技术是当代第一生产力呢

总之，让机器人(无论是机械臂还是人形)干好活，以不断提升生产力，对我有着极大的吸引力，以及极高的成就感，我愿意用我余生全力推动工业生产力的不断提升

人形之外，对于机械臂，我们目前侧重机械臂上的精密插拔、智能装配，故对这方面的论文始终保持着高度的关注，比如本文要解读的TA-VLA

第一部分 TA-VLA：阐释面向扭矩感知的视觉-语言-动作模型的设计空间

1.1 引言与相关工作

1.1.1 引言

如TA-VLA原论文所说，通过力觉线索理解物理交互对于掌握现实世界中的机器人操作至关重要。其中，关节力矩是一种极具信息量的信号，它能够在无需外部力传感器的情况下，反映末端执行器接触动态的微妙变化 $1,2,3$

如图1(a)所示，即使是在充电器插入这样看似简单的任务中------无接触、插入失败和成功插入------也可以通过7自由度机械臂的关节力矩曲线清晰区分。这些力矩响应提供了丰富的物理上下文信息，而仅凭RGB观测是无法感知的

然而，尽管视觉-语言-动作（VLA）模型 $4,5,6,7,8$ 在连接视觉与控制方面取得了显著进展，但它们对这类物理反馈的理解和利用能力仍然有限

来自1 北京智源人工智能研究院BAAI 、2 清华大学人工智能产业研究院AIR、3 南洋理工大学的研究者期望通过将力矩信号集成到预训练的VLA模型中，弥合这一差距，从而在不影响泛化性和可扩展性的前提下，实现对接触敏感的决策

然挑战在于如何将力矩嵌入到VLA架构中。力矩是一种本体感觉信号，其结构与图像和语言输入截然不同，且在时间上具有变化性，尤其在接触丰富的阶段更为明显

如图1(c)所示，力矩的集成策略可以在三个维度上展开------何时（即时、历史或预测）、何处（编码器或解码器），以及如何（单一token与多token）。这些选项构成了一个广泛的设计空间，但缺乏系统性的理解

a）7自由度机械臂在充电器插入任务中的力矩响应
灰色阴影区域表示无接触阶段，此时力矩几乎保持平稳
橙色高亮段表示一次插入失败的尝试------发生了接触，但插头未能插入插座，仅产生微小的力矩波动
绿色高亮段突出显示了一次成功的插入，特征为插头完全就位时出现的显著大幅力矩峰值
b）7自由度机器人机械臂的可视化，突出显示关节力矩的映射关系
c）本文探讨的基于力矩特征的设计空间，涵盖当前、历史及未来信号

因此，作者的动机有两方面：

确定对力矩感知的VLA模型最有效的设计选择
总结可推广的原则，以指导未来物理模态的集成

作者的第一个见解是，力矩信号应集成到解码器中，而不是编码器

通过HSIC分析 $9$ 和消融实验（第4.1节）验证，这种在解码器端的集成能够在动作生成过程中，将力矩与其他本体感受信号（如关节角度）进行对齐
这样的设计利用了解码器对细粒度变化的更高敏感性------这一点在接触丰富的场景中至关重要（例如，区分图1(a)中插头插入失败与成功的情况）

作者的第二个发现是，历史力矩信息比单帧输入更具信息量

然而，注入多个token可能会干扰解码器已学习的输入模式。作者发现，将整个力矩历史编码为解码器中的单一token （见图4(c)），能够在信息丰富性与架构稳定性之间取得平衡
即解码端的单步力矩历史能够实现最佳的本体感知对齐与性能表现
这一设计选择优于逐帧或在编码器端集成历史信息的方法（见第4.2节），从而实现了对接触动力学的稳健时序建模，如图7中插入和重试过程所示

作者的第三个见解是，预测未来的扭矩与动作同时进行，有助于构建具有物理基础的潜在空间

受自动驾驶领域多任务架构的启发 $10$ ，作者提出了一种统一的动作-扭矩扩散模型（见第5节），该模型不仅允许策略执行动作，还能够预测物理后果（参见图6中的预测曲线）
即引入了统一的动作-力矩扩散模型，从而通过力矩预测实现前瞻性学习
这一辅助任务促使模型在观察之外，进一步内化接触动力学

最后，作者宣称，他们通过在10项多样化任务中的大量真实世界实验验证了他们的完整系统------其中包括5项接触丰富、对力矩反馈至关重要的任务

其对应的paper地址为：TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models，其Submitted on 9 Sep 2025

其对应的作者为
Zongzheng Zhang∗1, Haobo Xu∗2, Zhuo Yang∗1,Chenghao Yue1,
Zehao Lin1, Huan-ang Gao1, Ziwei Wang3, Hao Zhao† 1,2
其对应的项目地址为：Torque-Aware-VLA.github.io
其对应的GitHub地址为：github.com/ZZongzheng0918/TA-VLA，待开源

且他们的最终模型（π0+obs+obj）在所有任务中相较于强大的VLA基线方法 $11,7,6$ （见表5）均取得了持续的提升，并且在生成方面表现出色

1.1.2 相关工作

第一，对于视觉-语言-动作模型

近年来，大型语言模型（LLMs） $12,13,14,15$ 和视觉-语言模型（VLMs） $16,17,18,19,20,21,22,23$ 取得了显著的成功，同时生成式模型也实现了如图像生成等连续输出 $24,25,26,27$

这些技术为视觉-语言-动作（VLA）模型的出现奠定了基础，该模型融合了视觉感知、语言理解与动作生成能力，并展现出极强的泛化能力，能够利用数百万条包含不同任务和设备的训练数据样本 $28,29,30,31,32,33,34$
近期关于VLA模型的研究可以根据动作生成方法分为几种模式，包括基于扩散策略的模型 $5,7$ 、基于流匹配的模型 $6$ ，以及自回归生成模型 $35,4,36$

例如
Octo $5$ 和 RDT-1B $7$ 采用扩散头和transformer主干网络来预测动作
而π0 $6$ 则利用条件流匹配生成高频动作序列
采用混合架构的模型进一步结合了多种生成技术，以发挥各自优势。例如，HybridVLA $37$ 在单一模型中融合了扩散和自回归方法

第二，对于基于力/力矩的模仿学习

尽管现有的大多数模仿学习研究主要利用关节位置和视觉信息 $6,8$ ，但将力/力矩信息作为额外输入的研究正日益受到关注。近期的研究表明，力/力矩信号能够赋予控制策略处理各种现实世界任务的能力，包括精细且高精度的操作 $38,39,40,41,42,43$
从力/力矩信息的来源来看，++大多数方法依赖额外的传感器获取六维扭矩测量数据++ $44,45,46,47,43$ ，这导致了更高的经济成本，并在恶劣操作环境下存在局限
From the perspective of sourcesof force/torque, most approaches rely on additional sensors to ++obtain 6D wrench measurements++ $44, 45, 46, 47, 43$ , which leads to higher economic costs and limitations in harsh operating con-ditions.

此外，尽管有部分工作尝试将力/力矩信息与视觉和文本输入结合，但它们通常从零开始训练策略，未能充分利用预训练VLA模型的优势 $48,49,50,51$ 。例如，FACTR $52$ 需要复杂的训练流程来对齐不同模态，且缺乏灵活性
相比之下，将力模态引入预训练VLA模型具有两大优势：
1）VLA模型已经在大规模数据集上训练，具备强大的跨模态学习基础，因此集成新的模态更加容易；
2）VLA模型通常能够学习跨模态的共享特征表示，从而更高效地适应新模态

在本工作中，作者系统性地探索了如何将力信息融入预训练VLA模型，使其能够作为世界模型，通过对历史、当前和未来状态下视觉、力和指令的统一理解，实现对环境的准确感知与预测

1.1.3 扭矩是末端执行器状态的良好指示器

在机器人操作中，末端执行器的外部接触会在整个运动链中引发机械响应。这些响应表现为关节扭矩的可观测变化

本节中，作者将通过机械臂的微分运动学和动力学，形式化地说明关节扭矩信号如何编码接触力信息

公式化表述
假设机械臂具有个自由度，其关节配置向量为，在存在外部接触的情况下，整体动力学方程为：

其中，其中表示指令扭矩，τ_ext∈R^n 表示由于末端执行器受到外部力而产生的扭矩分量。M(q)∈R^{n×n} 为惯性矩阵，C(q,˙q)∈Rn×n是科里奥利力和离心力矩阵，G(q)∈Rn是重力力矩向量。其中，˙q∈Rn为关节角速度向量，¨q∈Rn为关节角加速度向量
映射
假设末端执行器与刚性环境接触，并受到空间力（力矩），记为

鉴于虚拟末端执行器位移与关节位移的关系为，得到公式2

其中，为雅可比矩阵，它将末端执行器空间的速度映射到关节空间
该方程具有基础性意义：它表明，作用在末端执行器上的任何外力都通过雅可比矩阵的转置被投影回关节空间

因此，当发生接触事件（例如机器人触碰到某个表面）时，所产生的力矩信号可以分解为：

这里，是观测到的关节力矩，则表示由于内部动力学产生的预期力矩
该表达式表明，只要机械臂的动力学建模足够精确，通过观测关节力矩的变化，就能够推断作用于末端执行器上的净外部力矩
结论
关节力矩向量本质上通过公式2 所描述的关系携带了关于外部接触的信息。该结果构成了基于力矩的接触估计的理论基础，即通过关节力矩与标称模型的偏差来推断空间交互力，从而实现无传感器的力估计、碰撞检测以及柔顺操作

1.2 从感知过去(将力矩作为观测量)到预测未来(以力矩为目标)

在本节中，作者将力矩信号作为额外的观测量整合到VLA框架中，并探究其影响。大多数VLA模型主要由两个核心组件组成：条件编码器和去噪解码器，本文中分别简称为编码器和解码器

编码器用于感知环境
具体来说，编码器将图像输入和语言指令处理为统一的潜在空间，以构建上下文表示，
而解码器则输出动作
解码器对噪声输入进行逐步细化，在时生成动作序列。例如，RDT $7$ 通过对视觉和语言特征进行交叉注意力来构建条件，并采用一个在低维本体感受输入和噪声动作片段上运行的去噪主干网络

类似地，π0 $6$ 利用 PaliGemma $53$ 主干网络融合视觉与语言输入，随后通过动作解码器进行处理

以π0为代表性案例，作者通过以下问题探索将力矩作为输入的设计空间：

应将力矩信号引入条件编码器还是去噪解码器
如何利用历史力矩信号

1.2.1 嵌入位置选择？条件编码器与去噪解码器

在每个时间步，策略π0会观察多个RGB图像、一条文本指令以及机器人的关节角状态，记作，其中为第i张图像，是语言标记序列，是当前的机器人状态向量

在原始π0架构中，图像特征与一起构成条件上下文，而作为一个token提供给去噪模块

关于将扭矩信号集成到VLA架构中，作者探索了两种集成方式：

一是将集成到编码器的输入中，以利用其多模态能力
二是将与一起集成到解码器中，以丰富状态表示

具体而言，作者评估了三种嵌入的可能策略（见图2）：

编码器嵌入（Enc）：通过适配器将编码为一个 token，并与拼接，作为额外的条件输入（见图2(a)）
解码器预拼接嵌入（DePre）：将直接集成到的零填充维度中，拼接形成单一的组合token（见图2(b)）
解码器后级拼接嵌入（DePost）：通过适配器对进行编码，并将所得的token 预置到动作专家的状态输入前（见图2(c)）

具体来说，作者采用MLP作为力矩适配器。且在两个涉及大量接触的真实任务中，使用三种不同的架构进行了实验

结果如表1所示「不同架构在嵌入扭矩信号方面的结果」，表明将力矩信号嵌入解码器优于嵌入编码器，并且将其嵌入为单一token优于将其集成到原始本体感觉状态token中

该结果的原因可总结如下

更优的输入对齐。将力矩信号**** 集成到解码器中优于将其置于编码器中。由于**** 与关节角度同为本体感觉信号，在去噪过程中融合它们能够更好地利用二者之间的相关性，例如在富含接触的交互中表现出的连贯性和冗余性

为验证这一点，作者进行了实验，评估输入（以及动作）的高维特征之间的归一化Hilbert-Schmidt独立性准则（HSIC） $9$ 值，以衡量它们的相似性
图3显示了------来自不同模态输入标记的隐藏状态的归一化HSIC值，力矩信息( torqueinformation)与关节角度信号(** joint anglesignals)之间的对齐性显著更高「** Figure 3 shows thattorqueinformation is significantly more aligned withjoint anglesignals.」

因此，力矩信号应集成在解码器中，以更好地增强本体感觉感知
解码器的敏感性
编码器针对多样且模糊的视觉-语言输入而设计，主要处理较粗粒度的特征；而解码器则旨在捕捉输入中的细微变化

为验证这一点，作者分别向编码器和解码器的每个输入token添加随机噪声，并评估其性能。表2显示「带有随机噪声的编码器和解码器结果」

在噪声影响下，解码器的性能下降更为明显，表明解码器对输入变化更加敏感；
因此，引入**** 进行去噪能够更精细地利用细微的扭矩变化
此外，前拼接（Pre-Concatenation）方法会显著改变原始输入token，相当于引入了额外噪声，导致其性能**较后拼接（Post-Concatenation）方法更差

1.2.2 扭矩历史优于单帧

与固定的语言指令和相对稳定的视觉观测不同------这些在末端执行器接触后由于遮挡而几乎没有变化------如图1所示，力矩信号在接触时会发生显著变化

为了捕捉力矩的动态变化，仅依赖单帧力矩输入是不够的。对力矩信号的历史进行编码，可以为VLA模型提供更丰富的物理交互模式，从而在高接触任务中实现更优的性能

为了研究编码力矩历史的最佳方式，作者探索了两种策略：

逐帧分词，将每一帧的力矩分别作为独立的token进行编码
整体分词，将整个历史编码为单一token

为保证全面性，作者还考察了历史力矩信号应插入到编码器（图4(a)-(b)）还是解码器（图4(c)-(d)）中

结果如表3所示，表明++将整个力矩历史作为单一token输入解码器是最佳选择++

其原因如下

输入模式完整性
聚合式分词优于逐帧分词，因为大量历史分词会破坏解码器原有的输入模式完整性。为验证该假设，作者分别向编码器和解码器添加额外的噪声分词

如表4所示

添加的噪声分词很容易干扰解码器的感知能力。这一现象在添加额外的力矩历史分词时同样存在，可能会干扰解码器在预训练期间学到的模式
因此，即使减少历史分词可能导致信息损失，破坏解码器状态模式的影响在权衡中占主导地位

此外，如表4所示，编码器对输入模式变化表现出较强的鲁棒性，并且在包含更多信息的多历史分词条件下表现更佳。然而，正如第4.1节所述，对力矩信号进行编码有助于本体感知对齐和更细粒度的感知；因此，向解码器提供单一的历史信息分词优于其他方法

1.2.3 预测未来：以力矩为目标

第一，动机

目前的VLA策略仅将模态视为观测值，未能充分利用机器人自身的交互动力学。受自动驾驶多任务规划 $10$ 的启发，以及作者在上文(原文第4节)中发现力矩信息是强有力的本体感知线索，作者提出预测未来力矩与未来动作相结合的方法

该辅助任务促使模型建立一种在物理上有依据的潜在空间，从而实现更可靠的丰富接触操作

第二，动作-力矩扩散的统一损失

接下来详细描述如何训练模型以同时预测动作和力矩，在保持各自损失独立的同时，共享扩散权重以提升效率

设表示动作片段
表示力矩片段
干净的关节token可表示为

作者采样高斯噪声和时间步，从而形成带噪输入

为确保动作和力矩预测均保持良好校准，作者定义了两个均方误差目标：

其中和分别表示模型输出中的动作分量和力矩分量，、分别为对应的噪声切片

然而，与常见方法通过独立模块或共享权重并采用不同投影头来预测多种类型输出不同，为了节省成本并充分利用预训练权重，作者采用了单一线性层，直接输出动作和力矩的拼接预测，然后再将其拆分，用于各自的损失计算

即最终采用两种损失的组合：，其中是用于平衡动作保真度与力矩精度的权重因子

// 待更