【论文自动阅读】ActiveVLA: 将主动感知注入VLA模型以实现精准三维机器人操控

快速了解部分

基础信息(英文):

  1. 题目: ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
  2. 时间: 2026.01
  3. 机构: Fudan University, Shanghai Innovation Institute, Nanyang Technological University
  4. 3个英文关键词: Vision-Language-Action (VLA), Active Perception, 3D Robotic Manipulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 ActiveVLA 的新框架,让机器人不再被动地"看"世界,而是能像人一样主动调整视角和焦距,从而在杂乱或有遮挡的环境中精准完成复杂的操作任务。

研究痛点:现有研究不足 / 要解决的具体问题

现有的 VLA(视觉-语言-动作)模型大多依赖固定的、腕部摄像机提供的 2D 视角,无法在执行任务时根据需要动态调整观察角度或分辨率。这种被动感知导致机器人在面对长程任务、精细操作或严重遮挡(Occlusion)时,因无法获取关键细节而失败。

核心方法:关键技术、模型或研究设计(简要)

该研究设计了一个"由粗到精"的主动感知框架:首先通过多视角投影定位关键 3D 区域,然后利用主动视角选择(避开遮挡)和主动 3D 变焦(放大细节)来优化视觉输入,最后结合 VLM(视觉语言模型)预测精确的动作。

深入了解部分

相比前人创新在哪里

前人工作主要集中在被动感知(固定摄像头)或 2D 图像处理。本文的创新在于引入了**主动感知(Active Perception)**机制,赋予机器人动态调整"视线"的能力(即选择最佳观测点和变焦),将 3D 场景理解与 VLM 结合,解决了遮挡和细节丢失问题。

解决方法/算法的通俗解释

想象一个新手厨师在杂乱的厨房里找东西。传统机器人就像被蒙住一只眼且头不能动的人,只能凭有限的视野乱摸。ActiveVLA 则像是一个聪明的学徒,它会先扫视全局(粗阶段),然后主动把头凑近橱柜里看清楚(主动视角选择),甚至眯着眼睛放大看那个被挡住一半的苹果柄(主动 3D 变焦),确认抓哪里最稳,最后才伸手去拿。

解决方法的具体做法

  1. 3D 关键区域感知(粗阶段):利用 RGB-D 图像重建点云,通过正交投影生成多视角 2D 图像,输入 VLM 预测关键区域热力图,反投影回 3D 空间定位目标。
  2. 主动视角选择:围绕目标区域生成候选相机位姿,通过评分函数(考虑可见性、距离、多样性)筛选出能避开遮挡、视野最好的几个视角。
  3. 主动 3D 变焦:对选定的关键区域进行虚拟"光学变焦"(缩小视场角),在不损失分辨率的情况下放大局部细节,辅助精细操作。
  4. 3D 动作预测:将优化后的视图输入 VLM 生成热力图,结合全局与局部特征预测机器人的 6D 位姿和夹爪动作。

基于前人的哪些方法

该研究基于预训练的 PaliGemma (作为 VLM Backbone)和 SigLIP (视觉编码器),并借鉴了 BridgeVLA 的架构思想(如输入输出对齐),在此基础上增加了 3D 主动感知模块。

实验设置、数据、评估方式、结论

  • 设置与数据:在 RLBench、COLOSSEUM 和 GemBench 三个模拟基准及真实机器人(Franka Panda)上进行评估。
  • 评估方式:任务成功率(Success Rate, SR)、平均排名(Avg. Rank)。
  • 结论:ActiveVLA 在 RLBench 上达到 91.8% 的平均成功率(优于 SOTA),在 COLOSSEUM 和 GemBench 上也表现最佳。真实场景实验显示,面对严重遮挡(如从层层叠叠的抽屉中取毛巾、从杂乱水果中拿香蕉),其成功率显著高于基线模型(如 RVT-2 和 BridgeVLA)。

提到的同类工作

  • BridgeVLA:基于 PaliGemma 的 VLA 模型,本文的基础对齐方法来源。
  • RVT / RVT-2:基于粗到精 Transformer 的 3D 操控策略,本文的主要对比基线之一。
  • PerAct:基于点云的粗到精抓取方法,本文的对比基线之一。
  • Act3D:利用 3D 特征场进行动作选择的模型,本文的对比基线之一。

和本文相关性最高的3个文献

  1. BridgeVLA:本文直接采用了其预训练权重和部分架构设计,是本文方法的基础。
  2. RVT-2:代表了当前基于粗到精 3D 视觉的 SOTA 水平,是本文主要超越的对比对象。
  3. PaliGemma:本文使用的 VLM 主干网络,其强大的视觉语言能力是实现复杂指令操控的前提。

我的

  1. 热力图 GT label是自动标注的,而非人标。在Simulator里可以得到Object的点云,对应投影后就是label。
相关推荐
码农小白AI12 分钟前
IACheck AI报告文档审核:高端制造合规新助力,保障标准引用报告质量
大数据·人工智能·制造
_YiFei42 分钟前
哪个降论文AI率工具最好用?
人工智能·深度学习·神经网络
放下华子我只抽RuiKe51 小时前
机器学习全景指南-直觉篇——基于距离的 K-近邻 (KNN) 算法
人工智能·gpt·算法·机器学习·语言模型·chatgpt·ai编程
kisshuan123961 小时前
[特殊字符]【深度学习】DA3METRIC-LARGE单目深度估计算法详解
人工智能·深度学习·算法
sali-tec1 小时前
C# 基于OpenCv的视觉工作流-章33-Blod分析
图像处理·人工智能·opencv·算法·计算机视觉
老星*1 小时前
Trae-cn一句话安装OpenClaw:AI智能体框架快速部署指南
人工智能·编辑器
昨夜见军贴06161 小时前
IACheck结合AI报告审核:轨道扣件横向阻力检测报告确保无误差
人工智能
Qt学视觉1 小时前
AI2-Paddle环境搭建
c++·人工智能·python·opencv·paddle
泰迪智能科技1 小时前
分享|高校必备三大实训管理平台,助力高校人工智能、大数据、商务数据分析人才培养
大数据·人工智能·数据分析
Shining05961 小时前
推理引擎方向(二)《大模型原理与结构》
人工智能·rnn·深度学习·学习·其他·大模型·infinitensor