vla学习 富

基于diffusion

π0

架构

其核心思想是在预训练好的视觉语言模型(VLM)基础上添加一个"动作专家"(action expert),通过流匹配(flow matching)的方式生成连续的高频控制指令。整个架构可以概括为:

  • 预训练VLM Backbone

利用 PaliGemma 等大规模预训练的 VLM,将图像和文本信息嵌入统一的表示空间,继承了互联网规模的语义知识和视觉信息提取能力。

  • 跨机器人平台数据

论文中使用了来自 7 种不同机器人配置、68 个任务的大规模数据(总计约 10,000 小时),实现跨平台、跨任务的联合训练,从而提升模型的泛化能力。

  • 动作生成 via Flow Matching

针对连续动作生成的挑战,论文采用了一种基于扩散思想的流匹配方法(flow matching),使得模型能够生成高频(例如 50Hz)且精细的动作序列。与传统 autoregressive 离散生成方法相比,流匹配可以更好地处理连续控制信号和复杂动作分布。

  • 混合专家(Mixture of Experts)设计

模型内部将输入分为两大部分:一部分(图像和文本)走 VLM backbone;另一部分(机器人状态和动作)通过专门设计的"动作专家"处理,这种设计有助于更好地融合预训练知识和机器人特定的控制需求。

训练流程:预训练 + 后训练

类似大语言模型的训练流程,π0 模型的训练分为两个阶段:

  1. 预训练阶段:利用海量、但可能质量参差不齐的多任务、多平台数据,使模型具备广泛的基础能力和恢复错误的能力。

  2. 后训练(微调)阶段:使用高质量、任务特定的数据对模型进行微调,从而获得更高效、流畅和鲁棒的动作执行策略。后训练阶段能够显著提升模型在复杂、多阶段任务(如叠衣服、组装盒子等)上的表现。

添加链接描述\](https://zhuanlan.zhihu.com/p/19518316721) 这篇博客讲的更详细一些,输入输出, # 其他 π0.5 hi Robot

相关推荐
2zcode几秒前
基于低光照增强与轻量型CNN道路实时识别算法研究(UI界面+数据集+训练代码)
人工智能·算法·cnn·低光照增强·自动驾驶技术
萑澈13 分钟前
Xiaomi MiMo Orbit 百亿 Token 计划申请保姆级教程
人工智能
缝艺智研社14 分钟前
誉财 YC - 23 全自动上底裤明橡筋机:裤腰加工的革新力量
人工智能·自动化缝纫机·线上模板机·无人自动化产线·线内模板机
北京软秦科技有限公司15 分钟前
工厂到货验收的突破:IACheck如何提升AI报告审核效率
人工智能
LaughingZhu17 分钟前
Product Hunt 每日热榜 | 2026-05-03
人工智能·经验分享·深度学习·神经网络·产品运营
缝艺智研社17 分钟前
誉财 YC - 18 - JG 小型激光模板机:服装缝切工艺的革新先锋
人工智能·新人首发·自动化缝纫机·线上模板机·无人自动化产线
m0_4665252922 分钟前
绿盟科技发布2026年一季报,收入微增,亏损收窄,现金流持续为正
人工智能·科技
小雅痞22 分钟前
[Java][Leetcode middle] 209. 长度最小的子数组
java·算法·leetcode
weixin_4080996723 分钟前
身份证OCR识别中的“隐形防线”:复印件/翻拍检测如何拦截99%的虚假注册?(附多语言代码)
人工智能·ocr·图像识别·api接口·实名认证·身份证ocr·石榴智能
love you joyfully31 分钟前
如何随时随地访问你的“进程”?
网络·人工智能·网络安全·远程访问·网络技术