从切香蕉到剥果皮,机器人如何像人一样适应不同形状?

我们人类在日常生活中几乎本能地就能完成各种曲面物体的操作------切香蕉、削黄瓜皮、洗碗。这些任务需要与物体表面持续物理接触,动作方向(如"沿着表面滑动"或"向下按压")会随物体形状而变化。然而,对于机器人而言,曲面物体构成了一个根本性挑战:与平面不同,曲面不存在全局参考系。同样一个"切"的动作,在弯的香蕉和直的黄瓜上,其执行方向必须随形变化。这种形状的巨大变异性,使得为每一种可能的弯曲物体预先存储操作策略变得不切实际。
人类之所以能轻松适应不同形状,是因为我们将形状不变的任务描述("沿表面滑动,向下再向上")与具体物体的几何结构结合了起来。受此启发,研究人员尝试了多种方法:有的用固定参考系学习轨迹,但容易过拟合特定形状;有的利用关键点或神经场编码任务,但往往需要大量训练数据或离线学习。本文介绍一项突破性工作------利用"漫射定向场",这是一种平滑变化的局部参考系表示,能将复杂曲面上的操作任务简化为稀疏关键点的对应问题。该方法的核心理念是:与其为每个新物体重新学习策略,不如在可迁移的局部框架中重用形状不变的动作。
什么是漫射定向场?
漫射定向场可以理解为一种"柔软的坐标网格",它包裹在物体表面并延伸到周围空间。在每个空间位置,它定义了一个局部参考系(三个互相垂直的方向轴),其中某些轴与物体表面相切,某些指向曲面或远离曲面。这些参考系不是随意设定的,而是通过求解一个**偏微分方程(扩散方程)**计算而来------该方程能够从几个稀疏的"关键点"(例如香蕉的两端)出发,将方向信息最平滑地传播到整个物体表面和工作空间。

具体构建分为两步:首先,根据运行时采集的物体点云(即三维点集)和人工或自动标注的少量关键点(如尖端、根部),在物体表面上求解扩散方程,得到一个标量场(例如从一端到另一端渐变的值);再取该标量场的梯度,就获得了表面上的切向方向场(图1A)。扩散时间是一个可调参数:短时间强调局部几何细节,长时间则反映物体的整体对称结构------后者对噪声和局部缺损具有天然的鲁棒性。然后,利用一种称为"球面行走"的无网格蒙特卡洛方法,将表面方向场平滑地扩展到整个三维工作空间,使得机器人在接近物体、接触物体、甚至离开物体时都能获得一个几何适配的局部坐标系。
如何用定向场实现任务转移?
有了这个连续变化的局部参考系,曲面上的操作任务就可以被表示为形状不变的"局部动作原语"。例如,一个"剥离"动作可以被描述为:在局部参考系中,先沿着表面切向轴滑动,然后沿法向抬起,再反向重复------这套指令无论应用于香蕉、黄瓜还是梨,其语义完全相同。实际执行时,高级控制器(可以是人类远程操作、轨迹优化器、或者强化学习策略)只需查询当前工具尖端位置的局部参考系,然后在其中生成期望的局部动作,最后由底层控制器(如导纳控制器)跟踪执行。

论文展示了三种典型任务的跨物体转移:切割 (沿表面滑动并下压)、剥离 (来回往复的"拉锯"式运动)和覆盖(保持恒定距离扫过表面)。通过这种方式,机器人仅需更换目标物体的点云和关键点,即可将同一套动作逻辑应用到从未见过的新物体上(图2D)。
与多种控制范式的无缝集成
漫射定向场的一大优势是控制器无关:它作为一种中间几何表示,不关心上层指令来自哪里。在远程操作中,操作员使用六自由度输入设备,但控制轴的映射自动对齐到物体表面的切向和法向,使得"沿曲面滑动"变得直观。在轨迹优化中,利用定向场定义成本函数(如保持与表面特定距离、到达关键点附近的测地线区域),可显著加速收敛------有热启动时,优化常常一步到位,而无热启动则需要五六步迭代。在强化学习中,在局部参考系中表达动作空间,使得在简单形状(如圆形)上训练的策略,可以零样本迁移到完全不同的形状(如矩形或三维点云)上,而传统体固定坐标系下的策略则完全失效。
结论
研究团队通过一系列实验验证了该方法的效果。在定量评估中,他们将"剥离"任务转移到50个随机变形(缩放、弯曲、扭转)的梨形物体上,记录下工具的运动轨迹。以漫射定向场作为任务表示时,轨迹在不同形状之间的变异性最小,并清晰保留了三个剥离周期内的周期性结构;而使用单一固定物体坐标系、圆柱坐标系或球面坐标系等基线方法,变异显著增大,且周期模式被破坏。这表明定向场真正实现了形状不变的任务编码。
在鲁棒性测试中,研究人员人为添加了拓扑噪声(点云丢失一半并随机挖孔)、几何噪声(点位置抖动)和关键点标注误差。结果显示,增大扩散时间参数可以稳定地降低轨迹误差------这是扩散方程天然抑制高频噪声特性的体现。即使在点云严重不完整或含噪的情况下,定向场仍能提供平滑、可用的局部参考系。
此外,该方法天然支持多物体和复杂场景:在有多个物体的杂乱工作台上,只需将所有物体的点云合并,再引入简单的几何基元(如球体包围盒、平面墙壁)作为边界条件,即可计算出覆盖整个场景的定向场。这为实现长时序操作(如"从碗中铲起物体并保持水平倾倒")提供了统一的几何表示框架。
展望
漫射定向场为曲面物体的操作任务转移提供了一条不依赖大数据训练、仅依靠几何推理的新路径。相较于基于学习的神经描述场(NDF),它无需离线训练,可在线更新,且通过关键点注入任务相关的归纳偏置,提高了可解释性和样本效率。然而,该方法也有其局限性:首先,严重依赖深度传感器的质量,对于透明、反光或半透明物体,点云本身可能严重退化,仅靠平滑无法恢复丢失的几何信息。其次,当前采用拉普拉斯方程(或扩散方程)求解的是"最平滑"的场,这在需要更局部或结构化行为(例如只在某一区域变化方向)的场景下表现力有限------未来可以考虑带屏蔽项的泊松方程来调控空间范围。最后,对于可变形物体(如布料、线缆),变形会改变表面测地线结构,预先计算的拉普拉斯算子需要动态更新。
更令人兴奋的是未来方向:由于整个流程在关键点和扩散时间参数上可微,有望将漫射定向场集成到元学习或贝叶斯优化框架中,让机器人根据任务表现自动调整这些几何先验。此外,借助大视觉模型自动从图像中提取关键点,可以进一步实现零样本的任务迁移------只需告诉机器人"像切香蕉那样切这个新东西"。这项研究不仅让我们离通用操作机器人更近一步,也再次印证了一个朴素而深刻的道理:聪明的表示,往往比更多的数据更有效。