Openvla的原理学习

一.由预训练的VLM到VLA

Openvla是基于Prismatic-7B的预训练VLM模型进行训练的。其将动作进行离散化。将训练数据中每个维度动作范围的1%~99%区间的长度(如我dx范围为-10cm~20cm),那么将这个区间以256等分为小区间(1-256)对应了分割后的离散值。那么就可以把连续动作离散后进行训练。

二.VLM的理解

VLM是VLA的框架主干。这里用的是Prismatic-7B,如图1所示。VLM由视觉编码器(DinoV2和SigLIP组成),投影器和LLM(大预言模型)组成

各部分的作用如下:

其中视觉编码器利用了SinLIP-DinoV2的网络,空间理解能力更强,导致Prismatic-7B的VLM相较于其他VLM有更好的效果

三.Token令牌的理解

相关推荐
元气少女小圆丶22 分钟前
SenseGlove Nova 2+Unity开发笔记1
笔记·学习·unity
nashane1 小时前
HarmonyOS 6学习:应用退出动画优化实战——从“闪退“到优雅退出的完美蜕变
学习·华为·harmonyos
-To be number.wan2 小时前
算法日记 | 暴力枚举
学习·算法
SNKXD_13 小时前
2026品牌运营团队AI营销培训:TOP5轻量化课程适配常态化技能升级学习
大数据·人工智能·学习
小新同学^O^3 小时前
简单学习 --> 指令微调
人工智能·学习·llm·指令微调
風清掦3 小时前
【STM32学习笔记-14】WDG看门狗 - 14.2 WWDG窗口看门狗
笔记·stm32·单片机·嵌入式硬件·学习·fpga开发
晓梦林4 小时前
bughush靶场学习笔记
笔记·学习
hssfscv4 小时前
QT的学习记录1
开发语言·qt·学习
weixin_446260854 小时前
[特殊字符] 从弱点中学习:小计算使用智能体的自动领域专业化
人工智能·学习
wuxinyan1234 小时前
工业级大模型学习之路029:解决双智能体调用数据库报错问题
数据库·人工智能·python·学习·智能体