Openvla的原理学习

一.由预训练的VLM到VLA

Openvla是基于Prismatic-7B的预训练VLM模型进行训练的。其将动作进行离散化。将训练数据中每个维度动作范围的1%~99%区间的长度(如我dx范围为-10cm~20cm),那么将这个区间以256等分为小区间(1-256)对应了分割后的离散值。那么就可以把连续动作离散后进行训练。

二.VLM的理解

VLM是VLA的框架主干。这里用的是Prismatic-7B,如图1所示。VLM由视觉编码器(DinoV2和SigLIP组成),投影器和LLM(大预言模型)组成

各部分的作用如下:

其中视觉编码器利用了SinLIP-DinoV2的网络,空间理解能力更强,导致Prismatic-7B的VLM相较于其他VLM有更好的效果

三.Token令牌的理解

相关推荐
努力努力再努力FFF1 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
sakiko_2 小时前
UIKit学习笔记5-使用UITableView制作聊天页面
笔记·学习·swift·uikit
Alice-YUE3 小时前
【js高频八股】防抖与节流
开发语言·前端·javascript·笔记·学习·ecmascript
北山有鸟4 小时前
修改源码法和插件法
嵌入式硬件·学习
richxu202510014 小时前
嵌入式学习之路->stm32篇->(14)通用定时器(上)
stm32·单片机·嵌入式硬件·学习
qeen874 小时前
【数据结构】建堆的时间复杂度讨论与TOP-K问题
c语言·数据结构·c++·学习·
lizhihai_995 小时前
股市学习心得-六张分时保命图
大数据·人工智能·学习
nashane5 小时前
HarmonyOS 6学习:应用签名文件丢失处理与更新完全指南
学习·华为·harmonyos·harmonyos 5
@codercjw5 小时前
公差的具体标注方法(书本上/理论上标注方法)
学习
久菜盒子工作室6 小时前
时寒冰:第五次产业大转移与未来30年国运:在“双向挤压”中实现惊险一跃
人工智能·学习