vla

一颗小树x1 天前
vla·人形机器人·humdex·全身灵巧操作·遥操作系统
《VLA 系列》HumDex | 人形机器人 | 全身灵巧操作 | 遥操作系统 | 数据采集HumDex 是一个面向人形机器人 全身灵巧操作的便携式遥操作系统。论文地址:HumDex: Humanoid Dexterous Manipulation Made Easy
feasibility.4 天前
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
DreamZero技术解析:当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过
一颗小树x6 天前
vla·复现·流匹配
《VLA 系列》复现 π0.5、π0-FAST、π0 | 环境搭建 | 模型推理本文分享记录复现 π0.5、π0-FAST、π0的环境搭建、模型推理。开源地址:https://github.com/Physical-Intelligence/openpi
铮铭6 天前
人工智能·机器人·具身智能·vla
EgoScale: 基于多样化第一人称视角人类数据的灵巧操作规模化NVIDIA、加州大学伯克利分校和马里兰大学的研究人员开发了EgoScale,这是一个利用超过20000小时以自我为中心的人类视频来训练灵巧机器人操作策略的框架。该方法使22自由度机械手在任务完成率和成功率方面提高了54%,建立了人类数据的对数线性标度律,并实现了单次任务适应和跨实体泛化。
bryant_meng7 天前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
笨小古7 天前
学习·机器人·大模型·具身智能·vla
VLA学习笔记——持续更新中Vision-Language-Action(视觉 - 语言 - 动作) 大模型是之后 多模态 AI 以及机器人发展的一个非常重要的方向,有了 VLA 这位大神的加持,机器人可以完成由环境感知到动作应对的智能任务。 欢迎大家star!
铮铭12 天前
人工智能·机器人·ai编程·具身智能·vla
上海交大 RoboClaw VS EmbodiedAgentsSys 两个框架对比分析EmbodiedAgentsSysRoboClaw1. 机器人原生架构2. 感知-规划-执行完整链路3. 能力缺口检测(Gap Detection)
Jason18808050116 天前
vla·智驾·理想汽车
理想VLA智驾芯片演进观察:从 Orin/Thor 到数据流与专用化协同这一篇不是官方路线图,也不是参数评测报告;理想目前也还没有公开 M100 的具体结构细节。 文中关于 M100 的判断,主要基于公开渠道已披露的“数据流架构”方向和我的开发经验推演。 重点不是给出唯一正确答案,而是把判断路径说清楚:我为什么这么看、我在看哪些变量、哪些地方还不确定。
m0_6501082416 天前
论文阅读·机器人·vla·世界动作模型·预训练视频扩散模型
DreamZero:基于世界行动模型的零样本机器人策略当前最先进的视觉 - 语言 - 动作(VLA)模型在语义泛化方面表现优异,但在新环境中对未见过的物理运动的泛化能力不足。NVIDIA 团队提出DreamZero,一款基于预训练视频扩散骨干网络的世界行动模型(World Action Model, WAM)。与 VLA 模型不同,WAM 通过预测未来世界状态和动作,以视频作为世界演变的密集表征来学习物理动力学。通过联合建模视频和动作,DreamZero 能从异构机器人数据中高效学习多样技能,无需依赖重复演示。在真实机器人实验中,其在新任务和新环境的泛化能力
红茶川20 天前
论文阅读·ai·具身智能·vla
[论文阅读] π0: A Vision-Language-Action Flow Model for General Robot ControlKevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch,
铮铭21 天前
人工智能·具身智能·vla
开源!π0.6-MEM 机器人长时记忆架构完整实现——基于 Physical Intelligence 最新论文的工程落地GitHub 地址:https://github.com/hzm8341/pi0.6参考论文:MEM: Multi-Scale Embodied Memory for Vision Language Action Models,Physical Intelligence,2026年3月
是Yu欸1 个月前
机器人·大模型·华为snap·gitcode·昇腾·vla
【CANN】Pi0机器人大模型 × 昇腾A2 测评版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。Pi0机器人VLA大模型测评
传说故事1 个月前
论文阅读·人工智能·具身智能·vla
【论文阅读】See Once, Then Act:基于单次视频演示任务学习的VLA模型本文提出了一种名为ViVLA的机器人策略模型,能让机器人通过看一次人类或其他机器人的示范视频,就能学会从未见过的新操作任务,无需额外训练。
YMWM_1 个月前
论文阅读·vla
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“摘要Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and divers
一颗小树x2 个月前
vla·流匹配·dm0·具身空间推理·空间思维链
《VLA 系列》DM0 | 流匹配 | 具身空间推理增强 | 空间思维链DM0 是一个流匹配系列改进的 VLA 架构,适用于真实的物理机器人中兼顾模型的通用多模态能力和具身动作控制能力,形成 VLM骨干 + 流匹配 动作专家 的端到端架构
BackCatK Chen2 个月前
算法·华为·gpu算力·vla·世界模型
2026智驾决赛圈:洗牌、技术决战与3大生死门槛中国智能驾驶(智驾)行业正经历史上最剧烈的洗牌:曾经估值百亿的独角兽停摆、中腰部玩家批量出局,牌桌快速清空。行业形成明确共识:2026年将是决赛圈关闭的最后期限,最终仅2-3家核心供应商能存活,而主机厂自研阵营中,仅蔚来等少数玩家仍在坚守。
一颗小树x2 个月前
具身智能·vla·一站式·dexbotic·vla 开发工具箱
《VLA 系列》Dexbotic | 一站式 | 具身智能 | VLA 开发工具箱Dexbotic 是一个基于 PyTorch 构建的开源 VLA 模型工具,面向具身智能领域的研究者和开发者,提供一站式的 VLA 研究服务。
YMWM_2 个月前
论文阅读·人工智能·vla
论文阅读“DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI“摘要Moving beyond the traditional paradigm of adapting internet-pretrained models to physical tasks, we present DM0, an Embodied-Native Vision-Language-Action (VLA) framework designed for Physical AI.  Unlike approaches that treat physical grounding as a fi
一颗小树x2 个月前
强化学习·训练·vla·π0·π0.5
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA本文分享使用 RLinf 框架对 π₀ 和π₀.₅ 进行强化学习微调。支持PPO和GRPO等强化学习算法。
YMWM_2 个月前
论文阅读·vla
论文阅读“OpenVLA: An Open-Source Vision-Language-Action Model“摘要Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision