vla

想要成为计算机高手13 天前
人工智能·深度学习·计算机视觉·自然语言处理·机器人·开源·vla
半成品的开源双系统VLA模型,OpenHelix-发表于2025.5.6https://openhelix-robot.github.io/随着OpenVLA的开源,VLA如何部署到真实的机器人上获得了越来越多的关注,各界人士也都开始尝试解决OpenVLA的效率问题,双系统方案是其中一个非常热门的方案,但是双系统的方案有很多,比如Helix,理想汽车MindVLA等,但是缺乏相关开源工作,难以继续研究。
想要成为计算机高手20 天前
人工智能·计算机视觉·自然语言处理·大模型·vla
Helix:一种用于通用人形控制的视觉语言行动模型目录1. 介绍Helix1.1 多机器人协作(Multi-Robot Collaboration)1.2 零样本泛化(Zero-Shot Generalization)
寻丶幽风25 天前
论文阅读·笔记·机器人·具身智能·vla
论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文 一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。
nenchoumi31191 个月前
论文阅读·人工智能·深度学习·语言模型·vla
VLA 论文精读(十八)π0.5: a Vision-Language-Action Model with Open-World Generalization这篇文章是2025年发表在arxiv上的一篇VLA领域,这篇论文出来的第二天我就粗略读了一遍,但实在意犹未尽所以又写了这篇博客。这篇文章给我的震撼其实不是他们有多强泛化能力的模型,而是他们所有的机械臂构型与之前完全不一样了,Physical Intelligence 是一家打通了从硬件到算法的公司,他们与国内的银河通用、星海图等公司都有非常紧密的合作,我也是偶然才知道 Physical Intelligence 其实一直在给两家公司的本体构型提改动需求,也就是说这家公司其实摸到了正真适合VLA模型的硬件结
nenchoumi31191 个月前
论文阅读·笔记·学习·vla
VLA论文精读(十四)PointVLA: Injecting the 3D World into Vision-Language-Action Models这篇论文瞄准的是2025年在arxiv上发布的一篇VLA领域论文。这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型,而不是DP3一样只用纯3D数据从头训练模型,按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力,并且可以有效识别真实物体与2D照片,作者设置的各种任务中都超越了baseline模型。
万俟淋曦1 个月前
人工智能·ai·机器人·大模型·论文·具身智能·vla
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingx
机械心2 个月前
人工智能·机器学习·自动驾驶·vla·端到端自动驾驶
自动驾驶VLA模型技术解析与模型设计2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”,并可能在未来两年内改写智能驾驶市场的竞争格局。2025年的智能驾驶:VLA上车元年
星落秋风五丈原2 个月前
人工智能·自动驾驶·汽车·端到端·vla
Nvidia GTC AI 会议:理想汽车【VLA:迈向自动驾驶物理智能体的关键一步】Nvidia GTC AI 会议上,理想汽车介绍了内部VLA相关算法,理想在智驾新技术上的新技术探索其实比较领先,以下整理了这次介绍的相关技术点
v_JULY_v4 个月前
vla·视觉语言动作模型·π0·π0-fast·高效动作token化技术·π0开源了
π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲,以上的「大模型和具身」这两大热点是否可以结合呢?那可太多了,详见此文《2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA》
datamonday4 个月前
扩散模型·具身智能·rdt·vla·dit
[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者:Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接:https://arxiv.org/abs/2410.07864v1 项目主页:https://rdt-robotics.github.io/rdt-
datamonday4 个月前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
datamonday4 个月前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
铮铭5 个月前
python·深度学习·机器学习·具身智能·vla
DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。
heroacool2 年前
llm+robot·vla
Robot Learning这个讲得不错 https://www.cs.cornell.edu/courses/cs4756/2023sp/ 特别是 https://www.cs.cornell.edu/courses/cs4756/2023sp/assets/slides_notes/lec26_slides.pdf 不得不说老外的课,紧跟前沿。