文章介绍
在机器人灵巧操作研究中,赋予多指机械手如人手般的灵活程度,一直是业界公认的极高目标。近日,由浙江大学控制科学与工程学院陈积明教授与叶琦教授带领的团队,在国际权威期刊《Science Robotics》上发表了突破性进展。该工作从人脑顶下小叶整合多种感官信息的机制中获得灵感,开发出一套新型的视觉-触觉预训练与在线多任务学习系统。此系统仅需一个普通RGB摄像头和一套成本极低的二值化触觉传感器(整体感知成本控制在250美元左右),便能使机器人在没有昂贵力/力矩传感装置的情况下,完成转瓶盖、拧水龙头、推动拨杆等一系列灵巧操作。这项研究不仅显著降低了灵巧手感知的硬件成本,更通过其独特的类脑信息整合机制,让机器人表现出优异的任务泛化能力与拟人化操作特性,为推进通用机器人的实际应用提供了新的思路。
文章题目:
Visual-tactile pretraining and online multitask learning for humanlike manipulation dexterity
DOI:10.1126/scirobotics.ady2869
02
突破灵巧操作的"感知-决策"瓶颈
长期以来,让机器人进行精细操作面临巨大困难,这甚至被视为"莫拉维克悖论"的典型例证------机器能在复杂的棋类游戏中取胜,却难以完成孩童系鞋带这样的简单动作。相比工业中常见的双指夹具,仿人设计的灵巧手虽然拥有更多自由度,理论上能执行更复杂的任务,但随之产生的庞大动作组合空间,反而成为其发展的主要障碍。在实际操作中,机器人需协调多个手指关节,精确控制位置与力量,并实时理解物体的形状、质地以及被遮挡部分的动态。
传统控制方法在此常陷入困境。基于模型的方法在非结构化真实环境中容易失效;而依赖试错的深度强化学习方法,则因高维空间中奖励信号稀疏,存在训练效率低、稳定性差的问题。尤其在手指遮挡物体时,仅凭视觉难以判断接触状态。虽然增加触觉感知被认为是必要方向,但现有高精度触觉传感器成本高、难集成,而低成本传感器信号质量又往往欠佳,难以直接利用。因此,如何利用简单、低维的传感信息实现高水平操作,成为一个关键难题。
针对以上挑战,该研究团队转向借鉴人类的神经认知原理。人脑能够将视觉所见与触觉所感深度融合,甚至在行动前就形成预判。受此启发,团队设计了一种分阶段的学习框架:首先通过观看大量人类操作视频,让系统以自监督方式学习视觉与触觉之间的内在关联;随后,在虚拟环境中通过强化学习与在线模仿,训练出一个能执行多种任务的统一策略。
该框架的核心是模拟脑区功能的"信息整合单元"。在预训练阶段,系统通过刻意遮盖部分视觉或触觉输入并尝试重建,从而学会推断感官信息之间的因果关系。这使得机器人在视觉被部分遮挡或触觉信号简单时,也能"想象"出当前的交互状态,为后续的精确控制打下了坚实的感知基础。

03
视觉-触觉融合预训练
该研究的首要任务是构建机器人融合视觉与触觉的跨模态感知能力,其关键在于从人类操作示范中学习一种通用的表征方式。现有方法通常将视觉和触觉作为独立模态进行处理,先分别训练编码器,再在后续阶段进行特征融合。然而,对于自由度极高的灵巧手而言,这种在策略学习中直接进行端到端联合优化的方式,常因奖励稀疏而导致训练效率低、稳定性差------机器人难以在复杂试错中同步掌握"感知"与"行动"。
为突破这一瓶颈,团队设计了一套基于掩码自动编码器的自监督预训练框架,利用佩戴触觉手套采集的人类操作视频进行训练。在该架构中,单目RGB图像与二值化触觉信号被转换为各自模态的表示单元,随后随机掩蔽其中部分信息,驱动网络依据残留线索重建完整输入。这一过程迫使模型挖掘视觉与触觉之间潜在的因果关联:例如,当画面显示手指接近物体时,模型需预测接触即将发生;当触觉信号提示接触时,模型则需推断被遮挡的视觉内容与物体位姿。
其中的关键创新是引入了一个可学习的跨模态整合单元。该单元并非来自直接传感输入,而是作为网络内部的一个特殊节点,通过注意力机制动态聚合所有可见的视觉与触觉信息,功能上类似于大脑中整合多感官信号的"联络区",专门抽提与接触任务最相关的时空特征。实验显示,该单元能学习到紧凑的低维任务流形,有效过滤无关背景干扰。可视化分析进一步表明,仅使用视觉的模型其注意力较为发散,而经过视觉‑触觉协同预训练的模型,其整合单元的注意力则高度集中于指尖‑物体接触区域,并能随操作流程动态移动。
与以往仅依赖视觉预训练的模型不同,引入哪怕极其简单的二值触觉信号,也令机器人的感知能力实现了突破。视觉承载丰富的空间信息,却易受遮挡、光照与纹理干扰;而二值触觉提供了精确的时间定位。当两者在整合单元内融合时,视觉负责回答"在哪里",触觉则明确指示"在何时",二者互补形成对交互场景的完整认知。这也从计算角度阐释了人类何以能在视线受阻时仍可靠操作------触觉信号足以支撑大脑构建出动作的心理模拟。
此预训练路径的突出优点在于其数据获取的经济性与方法的强迁移性。它避免收集昂贵的机器人实时交互数据,转而利用更易得的人类演示视频。尽管人手机械结构存在差异,但基于"接触事件"学习到的深层表征具有跨域泛化能力。通过观察人类手与物体的交互,机器人以完全自监督的方式学会了聚焦于交互的关键------接触点及其引发的物体运动响应,无需任何精细标注。

04
在线多任务学习
在具备强大的感知能力后,研究面临的核心挑战转向如何让一个控制策略同时掌握多项灵巧任务。多任务学习对机器人而言本就复杂,而灵巧操作中各任务(如转瓶盖、拧水龙头或滑动物体)对指尖力量、手势调整和接触顺序的要求截然不同。如果直接使用强化学习进行多任务训练,往往会引发"梯度冲突"与"负迁移",即提升一个任务的性能可能以牺牲其他任务为代价。同时,为不同任务设计差异巨大的奖励函数会导致训练过程难以稳定,单个策略网络很难兼顾所有任务需求。
为解决上述问题,团队设计了一种结合在线模仿学习与DAgger算法思想的新框架。传统模仿学习依赖离线专家数据,容易因"分布偏移"而失效:一旦机器人遇到训练集中未见过的情况,小误差会不断累积,使其偏离正确轨迹,最终导致失败。这对多指灵巧手尤其严重,因为指尖的轻微偏差就可能导致物体脱落。而完全依赖强化学习从零探索,在高维动作空间中又因奖励信号稀疏而几乎无法收敛。
研究提出的框架包含两个紧密衔接的阶段:
- 专家策略生成:首先,在仿真环境中借助"特权信息"(如物体的精确位姿、接触力等真实物理状态)为每个任务分别训练一个专属的专家策略。这些策略虽然本身无法直接用于现实(因其依赖真实世界中无法获取的完美信息),但可作为理想的"教师"来提供指导。
- 策略在线蒸馏:与被动模仿固定数据集不同,团队让待训练的统一策略(作为"学生")在仿真中主动与环境交互。每当学生策略遇到一个状态,它便实时向对应的"教师"策略询问在此状态下应执行的动作,并将此作为监督信号来更新自身。这种 "在线数据聚合" 机制,确保了学习始终针对学生策略实际经历的状态进行,从而极大缓解了分布偏移与误差累积问题。
通过这种持续的"师生"问答与迭代,统一策略不仅掌握了各任务的标准操作流程,更学会了在发生意外偏离时如何自主纠偏恢复。最终,该策略仅凭单目视觉和二值触觉输入,就能成功执行转瓶盖、拧水龙头、滑动拨杆、桌面重定向与手中重定向五项技能,仅通过一个简单的任务ID进行模式切换。实验证明,这个多任务策略不仅在各个任务上表现出色,而且比单独训练的策略更加稳健。这是因为它在学习过程中,从不同任务中提炼并内化了更普适的手指协调范式(例如"张开-闭合-旋转"这类基础运动单元),从而获得了更强的泛化与适应能力。
下表展示了不同学习策略在仿真环境中对于"训练任务"和"未见任务"的成功率对比,清晰地体现了在线多任务模仿学习的优势:


从数据中可以直观地看到,纯强化学习和离线模仿学习在面对复杂多任务时表现极其有限,而浙大团队提出的在线模仿学习方法在未见物体上的泛化能力几乎翻倍,证明了该框架在处理分布外数据时的强大鲁棒性。
05
系统构建与实测
该研究的另一个重要贡献在于其极高的系统实用性和低成本特性,打破了灵巧操作研究必须依赖昂贵设备的刻板印象。在现有的灵巧操作研究中,为了弥补感知算法的不足,往往依赖于昂贵的硬件堆砌以此来获取更丰富的信息,例如使用深度相机(RGB-D)或高分辨率的光学触觉传感器(如GelSight、Digit等)。这些设备不仅成本高昂(往往数千美元),而且体积庞大,极其容易损坏,且难以覆盖灵巧手的所有指尖,限制了其在实际场景中的应用。
浙江大学团队反其道而行之,构建了一套极简的感知系统。在视觉方面,仅使用一个普通的单目网络摄像头(Webcam),模拟人眼的主观视角;在触觉方面,采用定制的压阻式触觉传感器。这种触觉传感器结构简单、坚固耐用,尽管其空间分辨率极低(仅为1x1像素到6x4像素),且只能提供粗糙的压力信号,但团队巧妙地将其二值化为"接触/无接触"信号。这种处理方式不仅极大地降低了数据处理的带宽和计算量,更重要的是,它规避了仿真与现实之间触觉信号难以精确匹配的鸿沟(Sim-to-Real Gap)。在仿真中很难精确模拟复杂的软体接触变形和摩擦力,但模拟"是否接触"这一二值状态则相对容易且准确。
在真实的物理系统部署中,这套总传感成本仅约250美元的系统展现出了惊人的能力。实验采用了Shadow Hand灵巧手作为执行机构,在转瓶盖、拧水龙头、滑动拨杆、桌面物体姿态调整和手内物体旋转这五项训练任务中,对25种不同的物体(包括3D打印的训练物体副本和形状材质各异的日常用品)进行了广泛测试。
结果显示,该系统在真实世界中的平均成功率高达85%。无论是刚性的塑料瓶盖、金属的水龙头把手,还是易变形的水果、表面光滑或透明的物体,机器人都能稳健地完成操作。特别值得一提的是,由于采用了二值化的触觉事件作为输入,该策略对触觉传感器的具体型号并不敏感。在更换了不同分辨率、不同原理(如气压式)的触觉传感器后,无需重新训练,策略依然能够保持极高的成功率。这证明了该方法学习到的是"接触"这一物理本质,而非特定传感器的信号特征。这种对硬件的低依赖性,意味着该技术可以轻松迁移到各种低成本的机械手上,为未来的大规模量产铺平了道路。

06
泛化与鲁棒性
一个优秀的机器人系统不仅要能完成训练过的任务,更要能应对未知的环境和挑战,即具备强大的泛化能力(Generalization)和鲁棒性(Robustness)。该研究通过一系列严苛的实验,全方位展示了Visual-Tactile(视觉-触觉)统一策略在这些方面相对于纯视觉(Vision-only)或纯触觉(Tactile-only)基线的巨大优势,揭示了多感官融合对于智能操作的决定性作用。
- 光照鲁棒性测试:黑暗中的"盲操作"
在真实环境中,光照条件往往是动态变化的,从强烈的直射光到昏暗的阴影,都会对视觉感知造成巨大干扰。研究团队系统性地测试了极端光照条件下的操作性能,包括侧光、背光以及极低照度环境。实验结果(如图4所示)表明,纯视觉策略在光照剧烈变化时性能急剧下降,因为阴影和反光会严重干扰视觉特征的提取,导致机器人无法准确判断物体位置。然而,引入了触觉信号的Visual-Tactile策略则表现出极强的稳定性。即使在视觉几乎失效的黑暗环境中,触觉信号提供的确切接触反馈依然能引导手指完成关键的抓取和旋转动作。这就像人类在夜间摸黑找开关一样,触觉成为了视觉失效后的可靠导航。

- 未见任务的零样本迁移:技能的融会贯通
更令人印象深刻的是,该策略在三个完全未见过的任务中也展现出了泛化能力:削铅笔、拧螺丝和滑动零食盒套。虽然这些任务的物体形状和操作细节与训练任务不同,但它们共享了相似的手指协调模式。例如,在削铅笔任务中,策略成功迁移了转瓶盖的技能;在滑动零食盒套任务中,迁移了滑动拨杆的技能。尽管由于接触动力学的差异(如削铅笔需要更稳定的力矩控制以防止铅笔打滑),成功率略有下降,但机器人依然完成了大部分试次。这表明,通过IPL Token学习到的多感官表征,捕捉到了灵巧操作中底层的运动原语和接触逻辑,而非死记硬背特定的动作序列。
- "类人"的操作行为:注意力的自主觉醒
研究人员还深入分析了机器人的操作行为,发现引入视觉-触觉预训练后,机器人的接触模式(Contact Patterns)在时序结构上与人类演示惊人地相似。图6展示的注意力图(Attention Map)分析进一步揭示了其中的奥秘:纯视觉模型的注意力往往发散且不稳定,容易被背景干扰;而视觉-触觉模型的注意力则始终聚焦在手部和物体的交互区域。更有趣的是,这种注意力会随着操作过程动态变化------当手指接触物体时,注意力权重会瞬间集中在接触点和物体边缘;当物体形态发生改变(如盒子被打开)时,注意力也会随之转移到新的关键区域。这种"知道看哪里"的能力,并非来自人工标注,而是网络在预训练中为了恢复被遮挡的触觉信号而自发习得的。这与人类在操作物体时,通过触觉反馈来引导视觉注意力的认知机制不谋而合,标志着机器人开始具备了初级的"意图理解"能力。

07
文章总结
浙江大学团队的这项发表于《Science Robotics》的研究,为机器人灵巧操作领域提供了一个极具参考价值的范式。它打破了长期以来对于"高精度操作必须依赖昂贵高精度传感器"的迷思,证明了实现复杂的灵巧操作并不一定需要昂贵的硬件堆砌,关键在于如何利用"大脑"------即先进的表征学习算法------来挖掘廉价传感器数据的价值。通过模拟人类顶下小叶(IPL)的多感官整合机制,机器人首次在低成本硬件上展现出了类人的感知与决策能力。
该研究的几大核心突破点总结如下:
- 类脑感知架构:首次将IPL神经元的多感官整合机制引入机器人学习,通过IPL Token实现了视觉与触觉的深层融合,解决了高维状态下的感知难题,为机器人赋予了"通感"。
-
低成本高鲁棒性:仅利用普通的网络摄像头和简单的二值触觉传感器,便实现了高精度的灵巧操作,大幅降低了硬件成本(仅约250美元),且极大地缓解了Sim-to-Real的鸿沟,对光照和传感器类型具有极强的鲁棒性。
-
高效的多任务学习:通过在线模仿学习策略,成功训练出统一的策略网络,解决了多任务RL中的训练不稳定问题,并展现出对未见任务的强大泛化潜力。
-
人机行为对齐:通过学习人类演示,机器人不仅学会了任务,还习得了类人的注意力机制和接触模式,使操作更加自然流畅。
这一成果不仅在学术上拓展了视觉-触觉融合学习的边界,更在工程上为家庭服务机器人、工业装配机器人等应用场景提供了切实可行的低成本解决方案。随着人形机器人产业的爆发,赋予机器人一双灵巧的手已成为行业共识。浙江大学团队的这一方案,无疑为让机器人走出实验室,像人类一样用一双灵巧的手去感知和改变世界,迈出了关键而坚实的一步。未来,我们有理由期待,这种基于多模态大模型和类脑机制的智能体,将在更广泛的领域展现出超越人类想象的潜力。