【与身俱能】机械臂训练(学习笔记)

一共两个项目,均有开源代码,各有各的好处

项目一:SimpleVLA-RL,1条轨迹教会机器;

项目二:SmolVLA,RTX 3080级别显卡的训练

项目一:SimpleVLA-RL

由清华大学、上海人工智能实验室、上海交通大学、北京大学和香港大学研究团队共同完成的突破性研究发表于2025年1月,论文题为"SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning"。

源码地址:https://github.com/PRIME-RL/SimpleVLA-RL

论文连接:https://arxiv.org/pdf/2509.09674

视频介绍地址:https://www.bilibili.com/video/BV1DsJdzGEUG/?vd_source=1b067419e0d22b3a5c182de38a58b079

强化学习训练需要一个SFT(监督微调) VLA模型(大约15G)

可用模型包括:

  • libero-10 traj1/trajall SFT
  • libero-goal/object/spatial traj1 SFT
  • Robotwin2.0 tasks traj1000 SFT

模型库下载地址:https://huggingface.co/collections/Haozhan72/simplevla-rl

这篇文章对这个项目介绍的比较详细

清华重磅!SimpleVLA-RL炸场:用RL让VLA模型少样本也能强,泛化能力飙升!入门到精通全解析,收藏这篇就够了!-CSDN博客


项目二:SmolVLA

是由Hugging Face团队于2025年6月推出的开源机器人AI模型,属于视觉-语言-行动(VLA)架构,旨在降低机器人智能体的研发门槛并推动通用化进程

项目地址

https://ai.gitcode.com/hf_mirrors/merve/smol-vision

SmolVLA的主要功能

  • 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。

  • 动作序列生成:模型包含一个动作专家模块,是一个轻量级的 Transformer,能基于视觉-语言模型(VLM)的输出,生成未来机器人的动作序列块。采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

  • 高效推理与异步执行:SmolVLA 引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。

SmolVLA的技术原理

  • 视觉-语言模型(VLM):SmolVLA 使用 SmolVLM2 作为其 VLM 主干,模型经过优化,能处理多图像输入。包含一个 SigLIP 视觉编码器和一个 SmolLM2 语言解码器。图像标记通过视觉编码器提取,语言指令被标记化后直接输入解码器,传感运动状态则通过线性层投影到一个标记上,与语言模型的标记维度对齐。解码器层处理连接的图像、语言和状态标记,得到的特征随后传递给动作专家。

  • 动作专家:动作专家是一个轻量级的 Transformer(约1亿参数),基于 VLM 的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。

  • 视觉 Token 减少:为了提高效率,SmolVLA 限制每帧图像的视觉 Token 数量为64个,大大减少了处理成本。

  • 层跳跃加速推理:SmolVLA 跳过 VLM 中的一半层进行计算,有效地将计算成本减半,同时保持了良好的性能。

  • 交错注意力层:与传统的 VLA 架构不同,SmolVLA 交替使用交叉注意力(CA)和自注意力(SA)层。提高了多模态信息整合的效率,加快推理速度。

  • 异步推理:SmolVLA 引入了异步推理策略,让机器人的"手"和"眼"能独立工作。在这种策略下,机器人可以一边执行当前动作,一边已经开始处理新的观察并预测下一组动作,消除推理延迟,提高控制频率。

由于smolVLA对显卡要求不高,所以用自己的电脑就可以训练,网上很多项目的搭建教程

这两个地址介绍的不错

轻量化视觉语言动作模型SmolVLA微调实战指南:从环境搭建到部署落地-CSDN博客

smolVLA初体验_smolvla部署-CSDN博客

相关推荐
m0_7269659819 小时前
RAG源代码笔记JAVA-高级RAG
笔记·ai·agent·rag
复业思维2024010820 小时前
Altium Designer (24.2.2)中更改库以及保持器件参数不变
笔记·学习·硬件工程
巧克力味的桃子20 小时前
进制转换3 学习笔记
笔记·学习
Purple Coder20 小时前
人工智能学习路线
学习
小帅学编程21 小时前
Spring(侧重注解开发)
java·学习·spring
爱喝水的鱼丶21 小时前
SAP-ABAP:在SAP世界里与特殊字符“斗智斗勇”:一份来自实战的避坑指南
运维·服务器·数据库·学习·sap·abap·特殊字符
科技林总21 小时前
【系统分析师】认证介绍
学习
日更嵌入式的打工仔21 小时前
Ethercat EOE笔记
网络·笔记·ethercat
不吃橘子的橘猫21 小时前
NVIDIA DLI 《Build a Deep Research Agent》学习笔记
开发语言·数据库·笔记·python·学习·算法·ai
算法与双吉汉堡21 小时前
【短链接项目笔记】6 短链接跳转
java·开发语言·笔记·后端·springboot