vla

v_JULY_v8 小时前
vla·视觉语言动作模型·π0·π0-fast·高效动作token化技术·π0开源了
π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲,以上的「大模型和具身」这两大热点是否可以结合呢?那可太多了,详见此文《2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA》
datamonday7 天前
扩散模型·具身智能·rdt·vla·dit
[EAI-027] RDT-1B,目前最大的用于机器人双臂操作的机器人基础模型论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者:Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接:https://arxiv.org/abs/2410.07864v1 项目主页:https://rdt-robotics.github.io/rdt-
datamonday8 天前
扩散模型·具身智能·vla·vlm·diffusionvla
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接:https://arxiv
datamonday11 天前
tokenizer·具身智能·vla·vlm·pi0
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接:https://arxiv.org/abs/2501.09747 论文出处:/ 论文被引:/ 项
铮铭1 个月前
python·深度学习·机器学习·具身智能·vla
DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。
heroacool1 年前
llm+robot·vla
Robot Learning这个讲得不错 https://www.cs.cornell.edu/courses/cs4756/2023sp/ 特别是 https://www.cs.cornell.edu/courses/cs4756/2023sp/assets/slides_notes/lec26_slides.pdf 不得不说老外的课,紧跟前沿。