FTP-1：首个跨触觉传感器与机器人本体的通用基础触觉策略

摘要

VLA模型正在将机器人学习推向"通用策略"（generalist policy）范式：一个大规模预训练策略，可作为下游任务、不同机器人本体和场景迁移的统一初始化。

然而，在接触密集型操作中，纯视觉信息往往不足。拧瓶盖、擦盘子、插USB、翻书页、在气球上画图等任务的难点通常发生在接触发生之后：压力是否过大、是否已经插偏、是否即将打滑、是否需要减速或重新调整。这些关键信息依赖触觉反馈。

本文提出 FTP-1（Foundation Tactile Policy），一套面向接触密集型操作的通用基础触觉策略。该工作由 Sharpa 与清华大学、上海交通大学、UC Berkeley、ETH Zurich、复旦大学等机构联合完成，旨在让触觉策略摆脱"一个传感器训练一个策略、一个本体适配一套模型"的局限，实现跨触觉传感器与机器人平台的经验复用。

触觉策略通用化的核心挑战

触觉传感器的高度异构性长期制约着触觉策略的通用化。不同传感器的输出形式（图像型、阵列型、状态量）、分辨率、采样率、空间布局和接触响应特性差异极大，导致在一个传感器上学到的"触觉经验"难以直接迁移。

FTP-1 在预训练与验证中重点采用 Sharpa Wave（22主动自由度高灵巧手）和 Sharpa North 人形机器人平台，以及 Sharpa DTC（Dynamic Tactile Array，DTA）指尖触觉传感器。其中，Sharpa Wave 采用与人类手部高度同构（isomorphic）的设计，遵循黄金分割比例，在尺寸、关节自由度分布、指尖/掌部接触区域布局以及力传导特性上高度贴近人类手部，并集成高分辨率 Dynamic Tactile Array。该硬件设计为跨平台迁移提供了坚实基础：在 Wave 上预训练的触觉模型具备较强的向下兼容性，能够更有效地迁移到其他类人灵巧手平台。

团队额外采集的 Sharpa North-FTP-1 数据集包含约 4000 条长时序灵巧操作演示，为预训练提供了丰富的灵巧手接触操作分布数据。论文实验在 Sharpa North、Sharpa Wave 平台及 Sharpa DTC 传感器上完成了真实世界接触密集任务验证。

统一触觉表示：Morphology-Aware Tactile Token Space (MTTS)

为解决传感器异构问题，FTP-1 提出 Morphology-Aware Tactile Token Space（MTTS），将图像型（如 GelSight-Mini）、阵列型（如 Contactile）、状态型（力/力矩）等异构触觉信号统一映射为按功能区域（functional areas）组织的触觉 token，并通过共享的触觉 Transformer expert 学习跨传感器、跨本体的可迁移触觉表示与操作能力。

FTP-1 在约 3000 小时大规模异构触觉操作数据上进行预训练，数据来自 26 个来源，覆盖 21 种触觉传感器（包括人类演示、灵巧手机器人、夹爪机器人及 UMI 风格数据），并全部按 MTTS 接口进行统一整理。

实验验证

实验覆盖 5 套硬件设置、14 个接触密集任务、4 类下游触觉传感器。结果显示：

在预训练中已见过的触觉传感器设置上，FTP-1 相比最强基线平均成功率提升 17.2 个百分点；
在未见过的传感器设置上（如 Xense 图像触觉和 Contactile 阵列触觉），FTP-1 仍取得 31% 的成功率提升。

这表明 FTP-1 学到的并非特定硬件的触觉模式，而是可跨传感器、跨本体迁移的通用接触操作知识。

本文核心贡献

首套面向触觉的通用基础策略 FTP-1，将 generalist policy 范式系统性地引入跨传感器、跨本体的触觉操作学习领域。
Morphology-Aware Tactile Token Space (MTTS)，提出一种统一触觉接口，将异构触觉信号映射到带有功能区域语义的 token 空间，实现"相似接触区域"的表示共享。
大规模异构触觉操作预训练数据集，包含约 3000 小时数据、26 个来源、21 种触觉传感器，并按 MTTS 接口统一整理（其中包含团队采集的 Sharpa North-FTP-1 高质量灵巧操作数据集）。
跨已见与未见传感器的真机与仿真实验，全面验证大规模触觉预训练能够带来真正可迁移的接触操作能力，而非仅提升同分布微调效果。

FTP-1 为接触密集型机器人操作开辟了从"专用策略"走向"通用触觉基础模型"的新路径，为未来具身智能的发展提供了重要基础。

1 引言

近年来，通用机器人策略模型快速发展。π0、π0.5、GR00T等视觉语言动作模型证明，大规模异构数据预训练可以让机器人策略获得更好的初始化，并在新任务、新场景、新本体上更高效地微调。

这一路线默认视觉是主要输入。但对于大量真实机器人任务来说，任务成败不只取决于"看见了什么"，还取决于"摸到了什么"。

插孔任务中，视觉很难判断细小偏差是否已经造成卡滞；擦拭任务中，视觉不能稳定估计持续接触压力；拧瓶盖时，策略需要感知是否滑动、是否夹紧、是否需要重新施力；翻书页时，纸张摩擦、指尖压力、是否分离成功，都带有强烈触觉属性。

触觉反馈对于接触密集型操作至关重要，但现有触觉策略大多绑定在特定传感器、特定机器人本体、特定任务上。

触觉硬件之间的差异远大于相机之间的差异。图像触觉传感器记录接触形变图像，阵列触觉传感器记录离散压力/力场，力/力矩传感器记录低维状态信号；同样是"手指末端接触"，在不同机械手、不同夹爪、不同传感器安装位置上，其信号形态完全不同。

因此，触觉学习面临一个核心问题：

能否训练一个单一触觉策略，从异构触觉经验中学习可迁移的接触操作知识，并在未见过的触觉传感器和机器人本体上继续发挥作用？

FTP-1正是围绕这个问题展开。

它不再把触觉视作某个任务上的附加输入，也不把触觉编码器绑定到单一硬件，而是从模型接口、预训练数据、策略架构、下游评测四个层面重新组织触觉策略学习流程。

2 相关工作

2.1 通用机器人策略

通用机器人策略希望摆脱单任务训练范式，在大规模机器人数据上预训练统一模型，再快速适配新任务、新环境与新本体。

OpenVLA、π0、π0.5、GR00T、RDT等模型从视觉、语言、动作、轨迹数据中学习通用行为先验；Open X-Embodiment等数据集推动了跨机器人平台的大规模预训练；一些工作进一步引入人类视频、VR演示、潜在动作token、世界模型等信号增强迁移能力。

但这些通用策略大多以视觉与语言为核心输入，触觉信息通常缺失。对于接触丰富、形变物体、小间隙装配、持续压力控制等任务，仅依赖视觉往往不足。

2.2 触觉策略学习

已有大量工作证明，触觉能够显著提升接触密集型操作表现。基于视觉-触觉融合的策略可以更好完成插拔、擦拭、按压、灵巧抓取、手内操作等任务。

但多数方法仍然围绕单一传感器和单一硬件设置设计。模型可能可以在某款图像触觉传感器上工作，却难以迁移到阵列触觉传感器；可能适配某只机械手，却无法自然迁移到夹爪或另一款灵巧手。

也有工作研究触觉表征预训练，例如通过视觉-触觉配对数据学习触觉编码器，或在特定传感器数据上预训练触觉策略。这些方法提升了同类传感器上的下游表现，但尚未形成跨图像型、阵列型、状态型触觉输入的端到端通用触觉策略。

FTP-1的定位是：不是给视觉策略临时加一个触觉分支，而是把触觉本身作为基础策略预训练的一等公民，研究触觉操作能力能否像视觉语言能力一样被大规模预训练、共享并迁移。

3 FTP-1：通用基础触觉策略

FTP-1输入包括语言指令、多视角RGB图像、本体状态与触觉观测；输出为未来一段连续动作chunk。整体结构继承多专家基础策略范式，由视觉语言expert处理图像与语言，由触觉expert处理触觉token，由动作expert融合多模态信息并生成连续动作。

关键区别在于，FTP-1没有简单把触觉输入塞进视觉语言模型，而是为触觉设计了一套独立且可共享的接口与专家模块。

3.1 触觉异构性的核心瓶颈

对视觉模型而言，不同相机输入通常仍可统一成图像token；对语言模型而言，不同文本都可统一成token序列。

触觉没有这样天然统一的接口。

同一只手的指尖、指腹、掌心、腕部力矩，不仅信号形态不同，功能意义也不同。不同机器人本体上的触觉传感器数量、覆盖区域、安装位置、采样频率、输出维度都可能不同。直接把所有触觉数据拼接到一起训练，会导致模型既难以共享知识，也容易过拟合某个传感器的形态。

FTP-1把问题转化为：先统一"触觉发生在哪个功能区域"，再统一"该区域对应的触觉token如何被编码"。

3.2 Morphology-Aware Tactile Token Space（MTTS）

为解决触觉异构性，FTP-1提出Morphology-Aware Tactile Token Space（MTTS）。

MTTS定义了24个功能区域槽位。对于手内触觉，0到14号槽位对应不同手部功能区域；对于腕部与手指力/力矩信号，15到20号槽位用于表达torque/force相关信息；21到23号槽位保留给未来扩展。

对于平行夹爪，两侧触觉传感器被映射到拇指尖与食指尖功能槽位，因为它们在夹取行为中的功能语义类似于双指抓取。

这样，不同传感器虽然底层信号不同，但最终都会被组织到统一的功能区域token空间中。模型看到的不再只是"某个设备上的某个数组/图像"，而是"某个功能区域上的触觉信息"。

每个MTTS token还会加入可学习的functional-area embedding。该embedding在不同传感器之间共享，用于告诉模型当前触觉token对应的末端执行器功能区域。左右手使用不同功能区域embedding，以区分双手触觉信号。

这种设计的直观意义是：即使下游传感器从未出现在预训练中，只要它能被映射到相应功能区域，模型仍可复用预训练触觉expert中学到的接触语义。

3.3 异构触觉编码器

MTTS统一了触觉token的语义位置，但原始触觉输入仍然形态各异。FTP-1为不同触觉模态设计异构编码器。

图像型触觉输入，例如GelSight或Sharpa DTC，先被resize为统一图像尺寸，再经过传感器特定的轻量ViT与共享T3 Transformer触觉编码器，最终取CLS token作为该功能区域的触觉表示。

阵列型触觉输入，例如Contactile或AetherGlove，通过傅里叶编码增强信号维度，再使用CNN捕获空间触觉结构，并压缩为一个功能区域token。

状态型触觉输入，例如力/力矩传感器、关节torque、低维接触状态，同样经过傅里叶编码与轻量MLP，转化为MTTS token。

如果同一传感器在多个功能区域上拥有相同形态输入，FTP-1会共享对应编码器参数，以减少传感器特定参数量，并鼓励模型学习共通触觉动力学。

3.4 共享触觉专家

FTP-1采用独立触觉Transformer expert处理MTTS token。动作expert可以读取触觉expert输出，但触觉expert不会反向读取动作expert或视觉语言expert。

这种模块化设计有三点作用。

第一，它让触觉知识可以作为独立模块迁移。面对未见过的触觉传感器时，下游只需从头训练传感器特定编码器，而共享触觉expert、功能区域embedding以及部分共享触觉模块可以直接复用。

第二，它避免触觉输入破坏预训练视觉语言expert已有知识。实验中，简单把触觉token注入视觉语言expert的Tactile-VLA基线，在部分真机任务上反而弱于纯视觉语言策略，说明不恰当的多模态融合可能会干扰原本较强的视觉语言表征。

第三，它提高了触觉处理效率与可扩展性。触觉expert只关注触觉token之间的交互，动作expert再统一融合视觉、语言、本体状态与触觉信息。

3.5 统一动作空间

不同机器人本体拥有不同动作空间。灵巧手可能需要手指关节控制，双臂机器人需要左右末端位姿或关节控制，夹爪只需要开合距离。

FTP-1采用统一动作空间，将机器人动作表示为固定长度稀疏向量。左右臂、头部、补充控制量等动作槽位统一排列；不同本体只填充自身支持的控制维度，并使用mask排除缺失动作维度的损失。

对于手部控制，FTP-1沿用Function--Actuator--Aligned Space（FAAS）思想，把功能相似的关节映射到相同动作槽位，从而让不同灵巧手共享动作语义。

该设计与MTTS相互呼应：MTTS统一触觉输入的功能区域，统一动作空间统一输出动作的功能槽位。二者共同支撑跨本体、跨传感器的策略预训练。

4 FTP-1-Dataset：大规模异构触觉预训练数据

仅有统一模型接口还不够。要学习可迁移的触觉操作能力，模型必须见过足够多的触觉传感器、机器人本体、任务形式与接触模式。

FTP-1-Dataset聚合26个数据来源，覆盖21种触觉传感器，其中包括7种图像型触觉、5种阵列型触觉、9种状态型触觉。数据来源包含人类演示、灵巧手机器人、夹爪机器人、UMI风格系统等。

除整合已有数据外，作者还采集了Sharpa North-FTP-1数据，包含4000条长时序灵巧操作演示。

原始数据规模差异很大，因此预训练时采用数据源特定采样比例，重采样后最终预训练混合约为：20%人手数据、30%灵巧手数据、50%夹爪数据。

所有触觉标注均按照MTTS功能区域组织。具有腕部位姿或头部位姿标注的数据，会被转换到统一坐标方向定义。语言标注经过重写以增加指令多样性。

这种数据组织方式的重点不是简单堆数据，而是把原本分散在不同硬件、不同格式、不同任务中的触觉经验，映射到同一个模型可学习的触觉token空间中。

5 下游微调实验：已见传感器设置

本文首先验证一个基本问题：在预训练中已经覆盖过的触觉传感器设置上，FTP-1预训练是否能提升下游触觉策略微调效果？

实验覆盖三类设置：UniVTAC仿真环境、Sharpa North真机、Sharpa&Dexmate真机。这些设置使用的GelSight-Mini与Sharpa DTC触觉传感器都出现在FTP-1预训练数据中，因此下游微调可以初始化触觉tokenizer与触觉expert。

对比基线包括：

π0.5：不使用触觉输入的强视觉语言动作策略；

Tactile-VLA：将触觉输入注入VLM expert，但没有独立触觉expert；

FTP-π0.5：使用FTP-1架构，但不进行大规模FTP-1触觉预训练，用于隔离预训练贡献。

5.1 UniVTAC仿真基准

UniVTAC包含6个接触密集任务，覆盖手内操作、插入、拔出等行为。每个任务评估100次rollout。

结果显示，FTP-1在整体平均成功率上达到66.7%，显著高于所有基线。由于Lift Bottle与Lift Can在仿真中可被纯视觉策略较好解决，论文额外报告了排除这两个任务后的平均值。此时FTP-1仍达到59.5%，相比第二名提升约17.5个百分点。

这一结果说明，FTP-1的优势主要体现在真正需要接触反馈的任务上，而不是依赖视觉即可完成的简单场景。

5.2 真机接触密集任务

真机评测包含两个平台。

Sharpa North平台测试Draw Balloon、Fix Hand、Twist Cap等长时序灵巧任务，涉及形变物体交互、小零件操作、双手协同与持续接触控制。

Sharpa&Dexmate平台测试Flip Book与Wipe Dish，重点考察按压、摩擦、持续接触、力控稳定性等能力。

FTP-1在所有方法中平均成功率最高，达到62.5%。最强基线π0.5为45.3%，FTP-1提升17.2个百分点。

值得注意的是，纯视觉语言策略π0.5在真机任务上排名第二，超过两个触觉基线。这反而说明：触觉不是简单"加上就有用"。如果多模态融合方式不合适，触觉输入可能扰乱原本较强的视觉语言表示，造成动作不稳定。

观察策略行为可以看到，Tactile-VLA与FTP-π0.5在接触条件变化时更容易产生不稳定动作；π0.5缺少触觉反馈时，常常无法维持稳定按压力，也难以根据拧瓶盖或擦拭过程中的接触变化做出反应。FTP-1则能够在多类任务中生成更平滑、更稳定的动作。

6 更关键的问题：能否迁移到未见触觉传感器？

同分布提升固然重要，但通用触觉策略最关键的检验是：面对预训练中从未出现过的新触觉传感器，FTP-1是否还能提供有用初始化？

本文在两个未见传感器设置上进行评测。

FlexivXense使用Xense图像触觉传感器，测试Insert Hanoi与Insert USB两个精细插入任务。每个任务使用100条微调演示。

TactileUMI使用Contactile阵列触觉传感器，测试Wipe Board按压擦拭任务，使用50条微调演示。

这些传感器本身没有出现在FTP-1预训练中。微调时，传感器特定触觉编码器从头训练；共享触觉expert、功能区域embedding，以及部分共享触觉模块仍复用预训练参数。

论文还分析了未见传感器与预训练中相近传感器的关系：Xense同为图像型触觉，最接近GelSight-Mini；Contactile为阵列型触觉，最接近AetherGlove。

结果非常关键：FTP-1在未见传感器任务上平均成功率达到46.6%，而最强基线仅为15.0%，提升31.6个百分点。

在Insert Hanoi任务中，当圆形积木与柱子发生错位时，FTP-1会根据触觉反馈减慢插入速度并进行反应式调整；纯视觉策略虽然偶尔也能表现出恢复行为，但缺乏触觉调节，常因继续硬插而失败。

在Insert USB任务中，仅有100条演示，任务对数据效率要求很高。FTP-1动作更稳定，而其他模型容易在插入阶段产生细小抖动，导致成功率下降。

在Wipe Board任务中，FTP-1更容易维持稳定按压力与连续表面接触；其他模型常出现压力不足、接触丢失或动作不连续。

这一组实验说明，FTP-1并不只是记住了某些预训练传感器的输入分布，而是通过MTTS与共享触觉expert学习到了可迁移的触觉操作知识。

7 预训练收益究竟来自哪里？

未见传感器上的提升可能有两种解释。

一种解释是数据分布更接近：FTP-1预训练数据本身与下游任务相似，因此微调更容易。

另一种解释是可迁移触觉知识：触觉分支在大规模异构触觉数据中学到了通用接触操作能力，因此即使传感器不同，也能提供更好的初始化。

为区分这两种可能，论文构造了No-Tactile-Pretraining checkpoint（NTP）。NTP使用与FTP-1相同的数据与训练设置，但预训练阶段不输入触觉，也不包含触觉相关结构。下游微调时再加入与FTP-1相同的触觉架构，得到NTP-1。

这样，NTP-1与FTP-1架构相同，数据来源相同，差别只在于预训练阶段是否真的学习过触觉分支。

在UniVTAC上，NTP-1优于FTP-π0.5，说明FTP-1数据分布本身确实对部分下游任务有帮助。但NTP-1仍明显低于FTP-1，说明触觉分支预训练提供了额外收益。

在FlexivXense未见传感器任务上，差距更明显：FTP-1相比NTP-1提升37.5个百分点。没有触觉分支预训练时，NTP-1在关键插入阶段对触觉变化不够鲁棒，动作更不稳定。

因此，消融实验支持第二种解释：FTP-1的收益主要来自预训练触觉知识，而不仅仅是数据分布接近。

8 FTP-1学到的是什么触觉能力？

从任务行为看，FTP-1带来的能力可以概括为三类。

第一，稳定接触维持能力。

在Wipe Dish、Wipe Board等任务中，策略需要持续保持合适按压力。视觉可以看到末端位置，却很难判断是否真正贴合表面；触觉反馈帮助FTP-1维持连续接触。

第二，力/接触变化下的反应式调整。

在Insert Hanoi与Insert USB中，失败常来自轻微偏移。FTP-1在触觉反馈显示错位时会减速或调整，而不是继续执行开环插入。这类行为更接近人类在插入小物体时的"摸着走"。

第三，长时序接触操作中的鲁棒性。

Draw Balloon、Fix Hand、Twist Cap、Flip Book等任务包含多个接触阶段，且接触状态会不断切换。FTP-1的动作更平滑稳定，说明预训练触觉expert提供了跨阶段的接触表征先验。

这些能力并不是由单一传感器特征决定的，而是由大量不同触觉输入、不同末端执行器、不同任务接触模式共同塑造出来的。

9 结论

本文提出FTP-1，一套面向接触密集型操作的通用基础触觉策略。

FTP-1通过MTTS将异构触觉信号映射到统一功能区域token空间，再由共享触觉Transformer expert学习跨传感器、跨本体可迁移的触觉操作表示。配合统一动作空间与大规模异构触觉数据预训练，FTP-1为触觉策略学习提供了一个可复用的模型级起点。

实验表明，FTP-1不仅在已见触觉传感器设置上提升下游微调性能，更能迁移到预训练中未见过的Xense图像触觉和Contactile阵列触觉设置，在真机接触任务中取得显著成功率提升。

这说明触觉预训练可以带来可迁移的接触操作能力，包括稳定接触维持、力感知调节、错位恢复与长时序接触鲁棒性。这些能力是纯视觉策略难以稳定获得的，也是机器人真正走向复杂物理世界所需要的关键能力。

10 局限性与未来工作

FTP-1仍是通用触觉策略的早期探索。

首先，本文主要关注通用触觉感知与策略微调，并未系统解决触觉/力反馈伺服控制问题。未来可以将异构触觉编码框架扩展到触觉预测、接触预测以及基于预测的低层力控闭环。

其次，尽管FTP-1-Dataset已经包含约3000小时数据、26个来源、21种传感器，但与视觉语言基础模型的数据规模相比仍然有限。进一步聚合更大规模、更高质量、更多本体和更多传感器的触觉数据，是提升通用触觉策略上限的关键方向。

最后，当前触觉硬件生态仍然高度碎片化。FTP-1通过MTTS提供了一个统一接口，但如何覆盖未来更多传感器形态、动态触觉信息、滑移与微振动信号，仍需要社区继续探索。

总体而言，FTP-1给出了一个清晰信号：触觉不应只是视觉策略的附属输入，而可以成为基础机器人策略预训练的重要模态。随着触觉数据规模扩大、传感器接口统一、模型架构继续演进，通用触觉智能有望成为接触密集型机器人操作的核心基础能力。