vla

选与握12 天前
机器人·vla·pi07
$\pi_{0.7}$: 一个具备涌现能力的可引导的通用机器人基础模型π0.7\pi_{0.7}π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
chen_zn9513 天前
人工智能·深度学习·具身智能·vla
VLA 的 Co-training:通过多源数据提升机器人泛化能力存在问题:机器人数据和互联网视觉语言数据教给模型的东西并不相同。一条常见的机器人轨迹通常包含以下信息:
万俟淋曦14 天前
人工智能·ai·机器人·大模型·llm·具身智能·vla
【论文速递】2026年第04周(Jan-18-24)(Robotics/Embodied AI/LLM)中文使用 googletrans 翻译,翻译不对的地方以英文为准标题: Agentic Reasoning for Large Language Models
chen_zn9514 天前
人工智能·深度学习·具身智能·vla
OpenPi、GR00T的视觉语言模型与动作模型连接方式差异分析总结VLA模型通常可以拆成两个逻辑模块:视觉语言模型和动作生成模型,前者用于生成视觉语言语义特征,后者用于生成连续动作序列。
chen_zn9515 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(一):从轨迹回报到优势标签与RECAP数据处理相关的代码主要位于,完整数据流如下,RLinf不会把Return和Advantage直接写回原始轨迹文件,而是保存成独立的Sidecar Parquet。例如,
chen_zn9515 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(二):优势标签驱动pi0.5的CFG训练CFG全称为Classifier-Free Guidance(无分类器引导),最初主要用于扩散生成模型,通过比较条件预测和无条件预测,让生成结果更符合指定条件。例如,在图像生成任务中,模型可以分别计算,
chen_zn9515 天前
人工智能·深度学习·强化学习·具身智能·vla
pi*0.6的RECAP:VLA如何从成功、失败和人工纠正中继续学习VLA 模型通常从人工示范中学习,训练数据告诉模型,看到这个画面和任务指令时,执行这组机器人动作。这种方法适合让机器人快速掌握基本技能,但存在一个明显问题,模型只知道模仿数据,不知道数据中的动作到底有多好。
chen_zn9516 天前
具身智能·vla·piper·gr00t
Isaac GR00T N1.7在Piper真机上的服务端/客户端部署实践Isaac GR00T N1.7是一个面向通用机器人操作任务的VLA模型。模型推理依赖GPU环境,而Piper真机侧则依赖CAN总线、RealSense相机、机器人SDK和本地安全控制逻辑。
The moon forgets17 天前
学习·机器人·交互·具身智能·vla
跨本体机器人学习:人类运动解码通用物理交互📄 arXiv: arXiv:2601.12993 | 🏷️ VLA模型 | ⭐ 评分: 9.1/10 🔑 论文笔记 VLA模型 跨本体学习 人为中心学习 具身智能 机器人操作 Flow-Matching MoE 统一动作空间 双臂操作 灵巧手 Being-H0.5 UniHand-2.0 Mixture-of-Flow pi0 pi0.5 OpenVLA AgiBot-World Qwen-VLA
chen_zn9517 天前
人工智能·深度学习·具身智能·vla·流匹配
GR00T N1.7源码学习(五):Policy推理、RTC动作衔接与部署流程解析GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析-CSDN博客GR00T N1.7源码学习(二):训练数据、Processor与多机器人动作空间解析-CSDN博客
Asimov_Liu17 天前
stable diffusion·自动驾驶·具身智能·vla·flow matching
Diffusion 与 Flow Matching 数学原理及其在 VLA Action 生成中的应用作者:Asimov+Codex | 日期:2026-06-11 适合:Diffusion / Flow Matching 初学者,关注 VLA(Vision-Language-Action)方向
chen_zn9517 天前
深度学习·具身智能·vla·gr00t
GR00T N1.7源码学习(三):动作头内部模块、DiT结构与多机器人条件编码解析GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析-CSDN博客GR00T N1.7源码学习(二):训练数据、Processor与多机器人动作空间解析-CSDN博客
chen_zn9517 天前
深度学习·具身智能·vla·lerobot·gr00t
GR00T N1.7源码学习(二):训练数据、Processor与多机器人动作空间解析GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析-CSDN博客上一篇博客主要把GR00T N1.7的主模型、动作头、Flow Matching训练目标和推理阶段的动作生成过程过了一遍。本文关注的是一条原始机器人轨迹是怎样从LeRobot数据集目录中被读出来,然后一步步变成Gr00tN1d7.forward()可以直接使用的输入字典。源码主要涉及下面几个文件,
The moon forgets18 天前
机器人·vla
AgiBot-World:百万轨迹数据集开创机器人操作新纪元📄 arXiv: arXiv:2503.06669 | 🏷️ VLA模型 | ⭐ 评分: 8.5/10 🔑 论文笔记 VLA模型 机器人操作 数据集 具身智能 潜在动作 双臂操作 灵巧手 GO-1 AgiBot-World
chen_zn9518 天前
深度学习·具身智能·vla·流匹配
GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析GR00T N1.7是一套面向机器人控制的Vision-Language-Action模型。模型接收相机图像、语言指令和机器人当前状态,输出一段连续的机器人动作序列。
The moon forgets20 天前
人工智能·pytorch·python·学习·具身智能·vla·点云分割
ABot-M0:基于动作流形学习的机器人操作VLA基础模型深度解析📄 arXiv: arXiv:2602.11236 | 🏷️ VLA模型 | ⭐ 评分: 8.7/10 🔑 论文笔记 VLA模型 跨本体学习 具身智能 机器人操作 Flow-Matching DiT 动作流形学习 3D感知 双臂操作 ABot-M0 UniACT-dataset Qwen3-VL VGGT pi0 pi0.5 OpenVLA-OFT GR00T-N1
一颗小树x22 天前
论文复现·vla·realtime-vla v2
《VLA 系列》 Realtime-VLA V2 论文复现 | 加速推理 | 代码分析本文对Realtime-VLA V2 进行复现,记录一下,供大家参考:开源地址:https://github.com/dexmal/realtime-vla-v2
The moon forgets23 天前
人工智能·pytorch·python·深度学习·具身智能·vla
DreamVLA:世界知识驱动的视觉-语言-动作新范式最近在视觉-语言-动作(VLA)模型方面的进展展示了将图像生成与动作预测相结合以提高机器人操作泛化能力和推理能力的潜力。然而,现有方法局限于具有挑战性的基于图像的预测,存在冗余信息且缺乏全面且关键的世界知识,包括动态、空间和语义信息。为了解决这些局限性,我们提出了DreamVLA,一个新颖的VLA框架,集成了综合世界知识预测以实现逆动力学建模,从而建立操作任务的感知-预测-行动循环。具体来说,DreamVLA引入了动态区域引导的世界知识预测,结合空间和语义线索,为动作规划提供了紧凑而全面的表示。这种设计符
Agilex松灵机器人24 天前
人工智能·机器人·具身智能·vla·aloha·松灵科研案例
什么是具身智能底盘?4 类主流 AI 机器人底盘选型|VLA/ROS2 项目硬件指南在具身智能机器人开发中,AI 具身智能、VLA 大模型落地,机械臂、视觉算法往往会受到更多关注,但是适配具身交互的智能移动底盘,才是机器人 SLAM 导航、移动抓取的硬件基础,不少科研踩坑都是选错 ROS2 机器人底盘导致项目延期。