vla

寻丶幽风4 天前
论文阅读·笔记·机器人·具身智能·vla
论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文 一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。
nenchoumi311916 天前
论文阅读·人工智能·深度学习·语言模型·vla
VLA 论文精读(十八)π0.5: a Vision-Language-Action Model with Open-World Generalization这篇文章是2025年发表在arxiv上的一篇VLA领域,这篇论文出来的第二天我就粗略读了一遍,但实在意犹未尽所以又写了这篇博客。这篇文章给我的震撼其实不是他们有多强泛化能力的模型,而是他们所有的机械臂构型与之前完全不一样了,Physical Intelligence 是一家打通了从硬件到算法的公司,他们与国内的银河通用、星海图等公司都有非常紧密的合作,我也是偶然才知道 Physical Intelligence 其实一直在给两家公司的本体构型提改动需求,也就是说这家公司其实摸到了正真适合VLA模型的硬件结
nenchoumi311918 天前
论文阅读·笔记·学习·vla
VLA论文精读(十四)PointVLA: Injecting the 3D World into Vision-Language-Action Models这篇论文瞄准的是2025年在arxiv上发布的一篇VLA领域论文。这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型,而不是DP3一样只用纯3D数据从头训练模型,按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力,并且可以有效识别真实物体与2D照片,作者设置的各种任务中都超越了baseline模型。
万俟淋曦19 天前
人工智能·ai·机器人·大模型·论文·具身智能·vla
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingx
机械心1 个月前
人工智能·机器学习·自动驾驶·vla·端到端自动驾驶
自动驾驶VLA模型技术解析与模型设计2025年被称为“VLA上车元年”,以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了“思维链”技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”,并可能在未来两年内改写智能驾驶市场的竞争格局。2025年的智能驾驶:VLA上车元年
星落秋风五丈原1 个月前
人工智能·自动驾驶·汽车·端到端·vla
Nvidia GTC AI 会议:理想汽车【VLA:迈向自动驾驶物理智能体的关键一步】Nvidia GTC AI 会议上,理想汽车介绍了内部VLA相关算法,理想在智驾新技术上的新技术探索其实比较领先,以下整理了这次介绍的相关技术点
v_JULY_v3 个月前
vla·视觉语言动作模型·π0·π0-fast·高效动作token化技术·π0开源了
π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲,以上的「大模型和具身」这两大热点是否可以结合呢?那可太多了,详见此文《2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA》
datamonday3 个月前
扩散模型·具身智能·rdt·vla·dit
[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者:Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接:https://arxiv.org/abs/2410.07864v1 项目主页:https://rdt-robotics.github.io/rdt-
datamonday3 个月前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
datamonday3 个月前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
铮铭4 个月前
python·深度学习·机器学习·具身智能·vla
DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。
heroacool1 年前
llm+robot·vla
Robot Learning这个讲得不错 https://www.cs.cornell.edu/courses/cs4756/2023sp/ 特别是 https://www.cs.cornell.edu/courses/cs4756/2023sp/assets/slides_notes/lec26_slides.pdf 不得不说老外的课,紧跟前沿。