Openvla的原理学习

一.由预训练的VLM到VLA

Openvla是基于Prismatic-7B的预训练VLM模型进行训练的。其将动作进行离散化。将训练数据中每个维度动作范围的1%~99%区间的长度(如我dx范围为-10cm~20cm),那么将这个区间以256等分为小区间(1-256)对应了分割后的离散值。那么就可以把连续动作离散后进行训练。

二.VLM的理解

VLM是VLA的框架主干。这里用的是Prismatic-7B,如图1所示。VLM由视觉编码器(DinoV2和SigLIP组成),投影器和LLM(大预言模型)组成

各部分的作用如下:

其中视觉编码器利用了SinLIP-DinoV2的网络,空间理解能力更强,导致Prismatic-7B的VLM相较于其他VLM有更好的效果

三.Token令牌的理解

相关推荐
阳光九叶草LXGZXJ12 小时前
达梦数据库-学习-50-分区表指定分区清理空洞率(交换分区方式)
linux·运维·数据库·sql·学习
慎独41312 小时前
重置学习系统:唤醒孩子的“双引擎”学习力
学习
近津薪荼13 小时前
优选算法——双指针专题7(单调性)
c++·学习·算法
峥嵘life13 小时前
Android 16 EDLA测试STS模块
android·大数据·linux·学习
invicinble13 小时前
学习的门道和思路
java·开发语言·学习
sayang_shao14 小时前
Rust多线程编程学习笔记
笔记·学习·rust
进阶的猪14 小时前
Qt学习笔记
笔记·学习
mango_mangojuice14 小时前
Linux学习笔记 1.19
linux·服务器·数据库·笔记·学习
Leekwen14 小时前
生命的选题
学习·思考·生活·认知高度·认知带宽