Openvla的原理学习

一.由预训练的VLM到VLA

Openvla是基于Prismatic-7B的预训练VLM模型进行训练的。其将动作进行离散化。将训练数据中每个维度动作范围的1%~99%区间的长度(如我dx范围为-10cm~20cm),那么将这个区间以256等分为小区间(1-256)对应了分割后的离散值。那么就可以把连续动作离散后进行训练。

二.VLM的理解

VLM是VLA的框架主干。这里用的是Prismatic-7B,如图1所示。VLM由视觉编码器(DinoV2和SigLIP组成),投影器和LLM(大预言模型)组成

各部分的作用如下:

其中视觉编码器利用了SinLIP-DinoV2的网络,空间理解能力更强,导致Prismatic-7B的VLM相较于其他VLM有更好的效果

三.Token令牌的理解

相关推荐
2501_901147831 天前
学习笔记:单调递增数字求解的迭代优化与工程实践
linux·服务器·笔记·学习·算法
苦逼IT运维1 天前
从 0 到 1 理解 Kubernetes:一次“破坏式”学习实践(一)
linux·学习·docker·容器·kubernetes
野犬寒鸦1 天前
从零起步学习并发编程 || 第五章:悲观锁与乐观锁的思想与实现及实战应用与问题
java·服务器·数据库·学习·语言模型
阿蒙Amon1 天前
TypeScript学习-第13章:实战与最佳实践
javascript·学习·typescript
云小逸1 天前
【nmap源码学习】 Nmap 源码深度解析:nmap_main 函数详解与 NSE 脚本引擎原理
网络协议·学习·安全
hssfscv1 天前
Javaweb学习笔记——后端实战8 springboot原理
笔记·后端·学习
苍煜1 天前
超简单 poi-tl 学习博客:从0到1掌握Word生成(无需模板+模板填充)
学习·word
sensen_kiss1 天前
Jupter Notebook 使用教程
大数据·人工智能·python·学习·数据分析
狂奔蜗牛飙车1 天前
Python学习之路-Python3 迭代器与生成器学习详解
开发语言·python·学习·#python学习笔记·python迭代器生成器
云小逸1 天前
【Nmap 源码学习】深度解析:main.cc 入口函数详解
网络·windows·学习·nmap