vla

Robot_Nav2 天前
机器人·具身智能·vla·wbc
机器人全身控制(WBC)深度技术综述:从经典理论到VLA前沿全身控制(Whole-Body Control, WBC)是一种面向高自由度机器人的统一任务导向反馈控制方法,其核心在于同时协调机器人所有关节与接触点,以满足多重物理约束并执行多项具有优先级差异的任务。WBC 被 IEEE 列为重点研究方向,覆盖全身位/力控制、模型基动力学控制、质心动量调控及多接触力分配等主题。本文从数学基础(零空间投影、层级优化)、经典求解方法(封闭式 vs. 优化式、ID-WBC/PB-WBC/QP-WBC)、与 MPC/TO 的系统对比、开源框架(OpenSoT、legged_co
lovep13 天前
机器人·具身智能·vla·rt-1
VLA系列RT-1: Robotics Transformer for Real-World Control 论文阅读和理解验证上述问题的难点:如何解决:贡献点:这里有一个值得思考的地方:text token其实根据token-prune相关的paper中会发现占比是很重要的,也就是当遇到这种类似场景时,text-token比视觉token更重要,会不会带来vla泛化性能有问题使得模型更关注指令而非视觉?
传说故事7 天前
论文阅读·具身智能·vla
【论文阅读】Fast-WAM: Do World Action Models Need Test-time Future Imagination?发现WAM的核心价值在于训练时用视频预测任务学习更好的世界表征,而非测试时真的去生成未来视频,因此提出Fast-WAM:训练保留视频co-training,推理跳过未来预测,实现4倍加速且性能不降。
传说故事7 天前
论文阅读·人工智能·具身智能·vla
【论文阅读】StarVLA-α: Reducing Complexity in Vision-Language-Action Systems题目:时间: 2026.04机构: HKUST, XJTU, CUHK, THU, Tongyi Lab Alibaba Group, SmartMore Ltd.
深蓝学院11 天前
自动驾驶·vla·数据闭环
数据闭环到训练闭环:2026年自动驾驶最新进展「训练闭环,自动驾驶的下一站」目录01 范式升级:从数据闭环到训练闭环的核心变革02 2026年训练闭环核心技术进展
大唐荣华14 天前
强化学习·rl·vla
从π到F:分阶段强化学习如何让机器人学会精密装配在具身智能与机器人操作领域,长时序精密装配一直是核心难题——从目标搜索、姿态对齐、稳定抓取到精准插入,任何一环失误都会导致任务失败。传统端到端强化学习常面临样本效率低、任务拆解难、鲁棒性不足的问题,而分阶段策略学习凭借「前向初始化+反向微调」的闭环框架,成为解决复杂操作任务的主流方案。
SkyXZ~17 天前
人工智能·机械臂·具身智能·vla·openvla·双臂具身·具身智能综述
从零开始的双臂具身VLA起源及现阶段发展综述作者:SkyXZCSDN:SkyXZ~-CSDN博客博客园:SkyXZ - 博客园过去几年,LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后,大家越来越清楚地看到,模型在语言理解、知识调用、常识推理,甚至跨任务泛化上,已经具备了很强的能力。也正因如此,一个很自然的问题开始出现:如果模型已经这么“聪明”,那它能不能进一步走出数字世界,真正去理解环境、操作物体、完成任务?
夜幕龙17 天前
机器人·具身智能·vla
VLA paper 速读《π*0.6: a VLA That Learns From Experience》:RECAP 如何让 VLA 从真实部署里继续变强更新时间:2026-04-12图源:论文 Fig.1 图解:传统 imitation learning 的上限很明显:机器人只能尽量模仿示范者,很难靠自己越做越熟、越做越快。尤其是真实部署时,机器人会犯各种“小错”——抓偏、碰歪、节奏慢、恢复差。 这篇论文要解决的是:
一颗小树x21 天前
vla·人形机器人·humdex·全身灵巧操作·遥操作系统
《VLA 系列》HumDex | 人形机器人 | 全身灵巧操作 | 遥操作系统 | 数据采集HumDex 是一个面向人形机器人 全身灵巧操作的便携式遥操作系统。论文地址:HumDex: Humanoid Dexterous Manipulation Made Easy
feasibility.25 天前
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
DreamZero技术解析:当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过
一颗小树x1 个月前
vla·复现·流匹配
《VLA 系列》复现 π0.5、π0-FAST、π0 | 环境搭建 | 模型推理本文分享记录复现 π0.5、π0-FAST、π0的环境搭建、模型推理。开源地址:https://github.com/Physical-Intelligence/openpi
铮铭1 个月前
人工智能·机器人·具身智能·vla
EgoScale: 基于多样化第一人称视角人类数据的灵巧操作规模化NVIDIA、加州大学伯克利分校和马里兰大学的研究人员开发了EgoScale,这是一个利用超过20000小时以自我为中心的人类视频来训练灵巧机器人操作策略的框架。该方法使22自由度机械手在任务完成率和成功率方面提高了54%,建立了人类数据的对数线性标度律,并实现了单次任务适应和跨实体泛化。
bryant_meng1 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
笨小古1 个月前
学习·机器人·大模型·具身智能·vla
VLA学习笔记——持续更新中Vision-Language-Action(视觉 - 语言 - 动作) 大模型是之后 多模态 AI 以及机器人发展的一个非常重要的方向,有了 VLA 这位大神的加持,机器人可以完成由环境感知到动作应对的智能任务。 欢迎大家star!
铮铭1 个月前
人工智能·机器人·ai编程·具身智能·vla
上海交大 RoboClaw VS EmbodiedAgentsSys 两个框架对比分析EmbodiedAgentsSysRoboClaw1. 机器人原生架构2. 感知-规划-执行完整链路3. 能力缺口检测(Gap Detection)
Jason1880805011 个月前
vla·智驾·理想汽车
理想VLA智驾芯片演进观察:从 Orin/Thor 到数据流与专用化协同这一篇不是官方路线图,也不是参数评测报告;理想目前也还没有公开 M100 的具体结构细节。 文中关于 M100 的判断,主要基于公开渠道已披露的“数据流架构”方向和我的开发经验推演。 重点不是给出唯一正确答案,而是把判断路径说清楚:我为什么这么看、我在看哪些变量、哪些地方还不确定。
m0_650108241 个月前
论文阅读·机器人·vla·世界动作模型·预训练视频扩散模型
DreamZero:基于世界行动模型的零样本机器人策略当前最先进的视觉 - 语言 - 动作(VLA)模型在语义泛化方面表现优异,但在新环境中对未见过的物理运动的泛化能力不足。NVIDIA 团队提出DreamZero,一款基于预训练视频扩散骨干网络的世界行动模型(World Action Model, WAM)。与 VLA 模型不同,WAM 通过预测未来世界状态和动作,以视频作为世界演变的密集表征来学习物理动力学。通过联合建模视频和动作,DreamZero 能从异构机器人数据中高效学习多样技能,无需依赖重复演示。在真实机器人实验中,其在新任务和新环境的泛化能力
红茶川1 个月前
论文阅读·ai·具身智能·vla
[论文阅读] π0: A Vision-Language-Action Flow Model for General Robot ControlKevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch,
铮铭1 个月前
人工智能·具身智能·vla
开源!π0.6-MEM 机器人长时记忆架构完整实现——基于 Physical Intelligence 最新论文的工程落地GitHub 地址:https://github.com/hzm8341/pi0.6参考论文:MEM: Multi-Scale Embodied Memory for Vision Language Action Models,Physical Intelligence,2026年3月
是Yu欸2 个月前
机器人·大模型·华为snap·gitcode·昇腾·vla
【CANN】Pi0机器人大模型 × 昇腾A2 测评版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。Pi0机器人VLA大模型测评