【论文自动阅读】ActiveVLA: 将主动感知注入VLA模型以实现精准三维机器人操控

快速了解部分

基础信息(英文):

  1. 题目: ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
  2. 时间: 2026.01
  3. 机构: Fudan University, Shanghai Innovation Institute, Nanyang Technological University
  4. 3个英文关键词: Vision-Language-Action (VLA), Active Perception, 3D Robotic Manipulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 ActiveVLA 的新框架,让机器人不再被动地"看"世界,而是能像人一样主动调整视角和焦距,从而在杂乱或有遮挡的环境中精准完成复杂的操作任务。

研究痛点:现有研究不足 / 要解决的具体问题

现有的 VLA(视觉-语言-动作)模型大多依赖固定的、腕部摄像机提供的 2D 视角,无法在执行任务时根据需要动态调整观察角度或分辨率。这种被动感知导致机器人在面对长程任务、精细操作或严重遮挡(Occlusion)时,因无法获取关键细节而失败。

核心方法:关键技术、模型或研究设计(简要)

该研究设计了一个"由粗到精"的主动感知框架:首先通过多视角投影定位关键 3D 区域,然后利用主动视角选择(避开遮挡)和主动 3D 变焦(放大细节)来优化视觉输入,最后结合 VLM(视觉语言模型)预测精确的动作。

深入了解部分

相比前人创新在哪里

前人工作主要集中在被动感知(固定摄像头)或 2D 图像处理。本文的创新在于引入了**主动感知(Active Perception)**机制,赋予机器人动态调整"视线"的能力(即选择最佳观测点和变焦),将 3D 场景理解与 VLM 结合,解决了遮挡和细节丢失问题。

解决方法/算法的通俗解释

想象一个新手厨师在杂乱的厨房里找东西。传统机器人就像被蒙住一只眼且头不能动的人,只能凭有限的视野乱摸。ActiveVLA 则像是一个聪明的学徒,它会先扫视全局(粗阶段),然后主动把头凑近橱柜里看清楚(主动视角选择),甚至眯着眼睛放大看那个被挡住一半的苹果柄(主动 3D 变焦),确认抓哪里最稳,最后才伸手去拿。

解决方法的具体做法

  1. 3D 关键区域感知(粗阶段):利用 RGB-D 图像重建点云,通过正交投影生成多视角 2D 图像,输入 VLM 预测关键区域热力图,反投影回 3D 空间定位目标。
  2. 主动视角选择:围绕目标区域生成候选相机位姿,通过评分函数(考虑可见性、距离、多样性)筛选出能避开遮挡、视野最好的几个视角。
  3. 主动 3D 变焦:对选定的关键区域进行虚拟"光学变焦"(缩小视场角),在不损失分辨率的情况下放大局部细节,辅助精细操作。
  4. 3D 动作预测:将优化后的视图输入 VLM 生成热力图,结合全局与局部特征预测机器人的 6D 位姿和夹爪动作。

基于前人的哪些方法

该研究基于预训练的 PaliGemma (作为 VLM Backbone)和 SigLIP (视觉编码器),并借鉴了 BridgeVLA 的架构思想(如输入输出对齐),在此基础上增加了 3D 主动感知模块。

实验设置、数据、评估方式、结论

  • 设置与数据:在 RLBench、COLOSSEUM 和 GemBench 三个模拟基准及真实机器人(Franka Panda)上进行评估。
  • 评估方式:任务成功率(Success Rate, SR)、平均排名(Avg. Rank)。
  • 结论:ActiveVLA 在 RLBench 上达到 91.8% 的平均成功率(优于 SOTA),在 COLOSSEUM 和 GemBench 上也表现最佳。真实场景实验显示,面对严重遮挡(如从层层叠叠的抽屉中取毛巾、从杂乱水果中拿香蕉),其成功率显著高于基线模型(如 RVT-2 和 BridgeVLA)。

提到的同类工作

  • BridgeVLA:基于 PaliGemma 的 VLA 模型,本文的基础对齐方法来源。
  • RVT / RVT-2:基于粗到精 Transformer 的 3D 操控策略,本文的主要对比基线之一。
  • PerAct:基于点云的粗到精抓取方法,本文的对比基线之一。
  • Act3D:利用 3D 特征场进行动作选择的模型,本文的对比基线之一。

和本文相关性最高的3个文献

  1. BridgeVLA:本文直接采用了其预训练权重和部分架构设计,是本文方法的基础。
  2. RVT-2:代表了当前基于粗到精 3D 视觉的 SOTA 水平,是本文主要超越的对比对象。
  3. PaliGemma:本文使用的 VLM 主干网络,其强大的视觉语言能力是实现复杂指令操控的前提。

我的

  1. 热力图 GT label是自动标注的,而非人标。在Simulator里可以得到Object的点云,对应投影后就是label。
相关推荐
lijianhua_971213 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
EDPJ13 小时前
当图像与文本 “各说各话” —— CLIP 中的模态鸿沟与对象偏向
深度学习·计算机视觉
蔡俊锋13 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语13 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背13 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao14 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
蒸汽求职14 小时前
机器人软件工程(Robotics SDE):特斯拉Optimus落地引发的嵌入式C++与感知算法人才抢夺战
大数据·c++·算法·职场和发展·机器人·求职招聘·ai-native
诸葛务农14 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年14 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
ai生成式引擎优化技术14 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能