技术栈
paligemma
v_JULY_v
16 天前
多模态大模型
·
gemma
·
vlm
·
paligemma
·
siglip
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型
本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma