仅需300美元!先进VLA模型与低成本硬件相结合

低成本视觉-语言-动作(VLA)系统,匹兹堡大学研究团队通过300美元级6DOF机械臂搭配自适应视野集成器,解决传统VLA硬件昂贵、泛化性差的痛点,在真实场景中实现超越现有方法的性能,推动机器人基础模型的普及。

原文链接:仅需300美元!先进VLA模型与低成本硬件相结合

背景与核心挑战

  • VLA模型优势在于直接从图像和自然语言指令映射到机器人动作,跳过手工设计的感知/规划模块,但在陌生光照、新物体、视觉干扰下易失效,泛化能力不足。

  • 硬件层面,现有顶尖机械臂成本达数千至数万美元,即便"低成本"产品也常超1000美元,且依赖专用软件框架,普通用户和研究者难以获取。

  • 训练与数据方面,远程操作数据收集繁琐昂贵,连续动作生成类模型(如扩散模型)训练慢、推理步骤多,自回归模型则存在推理延迟高的问题。

  • 论文标题:EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation

  • 论文链接:https://arxiv.org/pdf/2511.05397

  • 项目主页:https://everydayvla.github.io/

关键创新

协作训练与自适应视野集成器(AdaHorizon)

  • 双动作头设计:联合训练离散自回归动作头和连续L1回归动作头,离散动作擅长高层语义推理,连续动作保障精细操作精度。
  • 损失函数设计:用交叉熵损失监督离散动作,L1损失监督连续动作,通过加权求和平衡两者优化:

L C E ( A t , A ^ t ) = − ∑ k = 1 K A t , k log ⁡ ( A ^ t , k ) \mathcal{L}{CE}(A{t}, \hat{A}{t}) = -\sum{k=1}^{K} A_{t,k} \log(\hat{A}_{t,k}) LCE(At,A^t)=−k=1∑KAt,klog(A^t,k)

L 1 ( A t , A ^ t ) = ∥ A ^ t − A t ∥ 1 \mathcal{L}{1}(A{t}, \hat{A}{t}) = \|\hat{A}{t} - A_{t}\|_{1} L1(At,A^t)=∥A^t−At∥1

L ( A t , A ^ t ) = L C E ( A t , A ^ t ) + λ L 1 ( A t , A ^ t ) \mathcal{L}(A_{t}, \hat{A}{t}) = \mathcal{L}{CE}(A_{t}, \hat{A}{t}) + \lambda \mathcal{L}{1}(A_{t}, \hat{A}_{t}) L(At,A^t)=LCE(At,A^t)+λL1(At,A^t)(λ设为1)

  • 自适应重规划:通过计算两种动作预测的平均绝对差估计不确定性,差异超阈值时触发重规划,动态调整动作执行长度(figure2)。算法1明确最小执行动作数、重规划阈值等参数,兼顾实时性与安全性。

低成本6DOF机械臂设计

  • 核心参数:成本约311.98美元,6个自由度,有效负载0.2kg,工作半径382mm,最大速度0.7m/s,重复定位精度≤10mm(table1、figure3)。
  • 硬件选型:采用MG996R、DS3225等市售舵机,关节配置为roll-pitch-pitch-roll-pitch-roll,手腕3个舵机构成类球关节,实现全姿态覆盖。
  • 控制方案:使用Arduino Uno搭配PCA9685 12位PWM驱动板,通过I2C通信实现精准控制,降低软件依赖,支持跨操作系统使用。

自动化数据集与数据收集流程

  • 数据集规模:包含1200个任务演示样本,每个样本配对自然语言指令、RGB图像序列和末端执行器姿态数据。
  • 任务覆盖:涵盖拾取放置、环境操作(如开关抽屉)、堆叠等,通过参数化轨迹基元和通用语言模板快速生成多样化训练样本,简化数据收集。

实验结果与核心表现

仿真基准(LIBERO)

  • 综合性能:在空间、物体、目标、长时四大任务套件中,平均成功率达91.4%,仅落后最优基线3.9%,其中空间任务套件成功率96.8%,超越所有基线(table2)。
  • 推理效率:推理速率达54.2--108.4Hz,延迟仅0.0738秒,接近OpenVLA-OFT的性能,额外开销仅来自自适应视野模块(table3)。
  • 集成器优势:AdaHorizon在空间任务中成功率96.8%,比次优集成器高出1.6%,避免传统集成器过度平滑动作流的问题(table5)。

真实世界测试

  • 分布内任务:在拾取块、球、岩石等任务中,平均成功率比现有方法高出49%,球类操作表现稳定,仅"拾取并放置到右侧"任务略逊于基线(figure4)。
  • 分布外任务:在未见过的任务、环境及静态/动态干扰下,平均性能提升34.9%。动态干扰(如人类走动)下仅性能下降10%,静态干扰(杂乱环境)下下降20%,泛化性显著优于OpenVLA系列(table4)。
  • 失败模式:主要因物体释放延迟导致失败;OpenVLA-OFT常因抓取对齐错误或过流触发安全停机,OpenVLA则存在间歇性卡顿。

核心价值

通过"低成本硬件+高效模型+开源数据集"的组合,打破VLA技术的准入门槛,让家庭用户和小型研究团队能够接触到机器人基础模型。真实场景中的强泛化性和可靠性,为其在家庭服务、教育科研等领域的普及奠定基础。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

相关推荐
具身智能之心5 小时前
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速
diffusion·具身智能·vla
CICI131414135 小时前
国产工业机器人有哪些做的比较好有性价比的品牌?
机器人
CES_Asia6 小时前
机器人“奥运会”登陆!CES Asia 2026角逐消费级机器人王座
大数据·人工智能·科技·机器人
Robot侠7 小时前
ROS1从入门到精通 12:导航与路径规划(让机器人自主导航)
人工智能·机器人·自动驾驶·ros·路径规划·gazebo·导航
Robot侠8 小时前
ROS1从入门到精通 9: TF坐标变换(机器人的空间认知)
人工智能·机器人·ros·机器人操作系统·tf坐标变换
Robot侠8 小时前
ROS1从入门到精通 8:Launch文件编写(多节点协同管理)
人工智能·机器学习·机器人·ros·机器人操作系统
人工智能培训8 小时前
国内外知名大模型及应用
人工智能·深度学习·神经网络·大模型·dnn·ai大模型·具身智能
kyle~8 小时前
导航---Nav2导航框架概览
c++·机器人·ros2·导航
Robot侠8 小时前
ROS1从入门到精通 11:Gazebo仿真(打造虚拟机器人世界)
机器人·ros·gazebo·机器人仿真·机器人操作系统