Openvla的原理学习

一.由预训练的VLM到VLA

Openvla是基于Prismatic-7B的预训练VLM模型进行训练的。其将动作进行离散化。将训练数据中每个维度动作范围的1%~99%区间的长度(如我dx范围为-10cm~20cm),那么将这个区间以256等分为小区间(1-256)对应了分割后的离散值。那么就可以把连续动作离散后进行训练。

二.VLM的理解

VLM是VLA的框架主干。这里用的是Prismatic-7B,如图1所示。VLM由视觉编码器(DinoV2和SigLIP组成),投影器和LLM(大预言模型)组成

各部分的作用如下:

其中视觉编码器利用了SinLIP-DinoV2的网络,空间理解能力更强,导致Prismatic-7B的VLM相较于其他VLM有更好的效果

三.Token令牌的理解

相关推荐
试着9 分钟前
【huawei】机考整理
学习·华为·面试·机试
風清掦9 分钟前
【江科大STM32学习笔记-05】EXTI外部中断11
笔记·stm32·学习
Purple Coder9 分钟前
基于CNN对YBCO超导块材孔隙研究
学习
wdfk_prog21 分钟前
[Linux]学习笔记系列 -- [drivers][tty]sysrq
linux·笔记·学习
优橙教育28 分钟前
通信行业四大热门岗位解析:谁才是数字时代的黄金赛道?
网络·学习·5g
西西学代码1 小时前
A---(1)
学习
厦门小杨1 小时前
数据驱动制造:智能铺布机如何成为服装工厂数字化的基石
学习·制造·服装厂·服装机械
DeanWinchester_mh1 小时前
DeepSeek新论文火了:不用卷算力,一个数学约束让大模型更聪明
人工智能·学习
EmbedLinX1 小时前
嵌入式之协议解析
linux·网络·c++·笔记·学习
楚轩努力变强1 小时前
iOS 自动化环境配置指南 (Appium + WebDriverAgent)
javascript·学习·macos·ios·appium·自动化