面向机器人灵巧操作的手 - 物交互生成

机器人想要在真实场景里完成倒水、抓取、摆放、拧瓶盖 等精细动作,核心在于稳定、连续、符合指令手 - 物交互(HOI) 。但现有方法普遍存在三大瓶颈:1. 语义与几何难以兼顾长时程操作容易穿模、接触漂移,动作与语言指令、3D 场景不匹配。2. 推理速度无法实时主流扩散模型生成一段动作需要 3--7 秒,难以用于在线规划。3. 高质量 HOI 数据极度稀缺手 - 物交互遮挡严重、动捕成本高、标注难度大,公开数据集规模有限。

为解决这些问题,本文提出 FlowHOI :一个基于流匹配、语义对齐、可真机部署 的两阶段手 - 物交互生成框架。FlowHOI 的目标非常明确:以第一视角观测、文本指令、3D 高斯场景为输入,生成时序连贯、物理合理、语义对齐的 HOI 序列,并直接迁移到灵巧机器人执行。

为解决数据稀缺,文章提出一套无需动捕、从第一视角视频自动生成高质量 HOI 数据 的流程:① 过渡帧检测通过手腕速度与方向变化,定位 "抓取结束、开始操作" 的关键帧。② 物体 3D 重建使用 SAM3 分割 + DepthAnything3 深度估计 + SAM3D 重建物体网格。③ 手 - 物精准对齐基于 MANO 手部模型,优化位移与姿态,保证指尖接触、无穿透、抓握稳定。④ 输出对齐轨迹自动生成可用于训练的手 - 物交互序列,大幅降低数据成本。

FlowHOI 最关键的设计:模仿人类行为 ------ 先抓稳,再操作

🔹 第一阶段:抓取(Grasping)
  • 专注:几何稳定、接触可靠

  • 任务:生成 "接近 → 触碰 → 抓稳" 的手部运动

  • 训练:使用大规模重建数据预训练抓取先验

  • 目标:无抖动、不穿模、抓握姿态自然

🔹 第二阶段:操作(Manipulation)
  • 专注:语义对齐 + 场景约束

  • 任务:在稳定抓取基础上,完成倾倒、转动、放置等长时程动作

  • 输入:语言指令 + 3D 场景信息 + 抓取结束状态

  • 设计:时序掩码 + 过渡硬约束,保证动作连贯不崩坏

为让动作符合真实空间布局,模型使用双场景编码

① 局部场景

  • 3D 点云采样

  • 几何特征(Concerto)+ 语义特征(SceneSplat)融合

  • Perceiver 压缩,降低计算量

② 全局场景

  • 体素化占用网格

  • ViT 编码,提供整体布局先验

  • 避免大碰撞,保证全局合理性

FlowHOI 放弃扩散模型,使用条件流匹配(CFM)

  • 推理仅需 0.16 秒 / 序列

  • 比扩散模型快 40 倍

  • 采用 x-prediction 目标,动作更平滑、抖动更少

  • 天然适合机器人实时控制与在线规划

GRAB、HOT3D 两大权威数据集上:动作识别精度最高;物理仿真成功率 55.96%,较最优扩散基线提升1.7 倍;穿模体积最多降低21%; 推理速度0.16s / 序列,满足实时性;真机成功执行4 类任务。

相关推荐
TMT星球2 天前
擎天租亮相The Stage上海一周年派对,助力打造高空文旅新体验
机器人
小陶来咯2 天前
灵犀机器人交互系统--CaptureJpeg
机器人·交互
kyle~2 天前
CDR--- 数据序列化格式(DDS的底层数据支持)
机器人·信息与通信·ros2·dds
刘大猫.2 天前
重塑经典:Snapseed4.0全面登陆安卓,内置“胶片相机”与专业手动模式
android·数码相机·ai·机器人·大模型·算力·snapseed4.0
workflower2 天前
人工智能全球治理
大数据·人工智能·设计模式·机器人·动态规划
workflower2 天前
AI灵活高效的智慧用能核心场景
大数据·人工智能·设计模式·机器人·动态规划
kyle~2 天前
RTPS(Real-Time Publish-Subscribe)---DDS的传输协议
c++·机器人·ros2
郭龙飞9802 天前
OpenClaw 飞书机器人搭建指南 远程 AI 操控电脑配置
人工智能·windows·机器人·飞书
数智工坊3 天前
具身智能人形机器人:从实验室走向现实的下一代通用智能体
人工智能·深度学习·机器人
Freak嵌入式3 天前
WIZnet-EVB-Pico2开始,用MicroPython玩转以太网开发
arm开发·人工智能·python·嵌入式硬件·机器人·嵌入式·micropython