vla学习富

henyaoyuancc2025-06-10 12:16

基于diffusion

π0

架构

其核心思想是在预训练好的视觉语言模型（VLM）基础上添加一个"动作专家"（action expert），通过流匹配（flow matching）的方式生成连续的高频控制指令。整个架构可以概括为：

预训练VLM Backbone

利用 PaliGemma 等大规模预训练的 VLM，将图像和文本信息嵌入统一的表示空间，继承了互联网规模的语义知识和视觉信息提取能力。

跨机器人平台数据

论文中使用了来自 7 种不同机器人配置、68 个任务的大规模数据（总计约 10,000 小时），实现跨平台、跨任务的联合训练，从而提升模型的泛化能力。

动作生成 via Flow Matching

针对连续动作生成的挑战，论文采用了一种基于扩散思想的流匹配方法（flow matching），使得模型能够生成高频（例如 50Hz）且精细的动作序列。与传统 autoregressive 离散生成方法相比，流匹配可以更好地处理连续控制信号和复杂动作分布。

混合专家（Mixture of Experts）设计

模型内部将输入分为两大部分：一部分（图像和文本）走 VLM backbone；另一部分（机器人状态和动作）通过专门设计的"动作专家"处理，这种设计有助于更好地融合预训练知识和机器人特定的控制需求。

训练流程：预训练 + 后训练

类似大语言模型的训练流程，π0 模型的训练分为两个阶段：

预训练阶段：利用海量、但可能质量参差不齐的多任务、多平台数据，使模型具备广泛的基础能力和恢复错误的能力。
后训练（微调）阶段：使用高质量、任务特定的数据对模型进行微调，从而获得更高效、流畅和鲁棒的动作执行策略。后训练阶段能够显著提升模型在复杂、多阶段任务（如叠衣服、组装盒子等）上的表现。

$添加链接描述$ (https://zhuanlan.zhihu.com/p/19518316721)

这篇博客讲的更详细一些，输入输出，

其他

π0.5

hi Robot

上一篇：9个数据分析指令为工作赋能

下一篇：金融系统渗透测试

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结