【SigLIP论文阅读】:重新定义视觉-语言预训练的损失函数——VLA模型的“语言理解“基石如果你正在研究具身智能或者VLA(视觉-语言-动作)模型,你会发现一个有趣的现象:几乎所有最新的开源VLA模型都不约而同地放弃了曾经的王者CLIP,转而使用SigLIP作为它们的视觉-语言编码器。OpenVLA用它,Octo用它,小米的Xiaomi-Robotics-0也用它。为什么SigLIP能在短短一年内就取代CLIP的地位?因为它用一个简单到不能再简单的改动——把softmax换成sigmoid——就解决了CLIP几乎所有的痛点:小批量性能差、内存占用高、训练不稳定。今天我们就来深度拆解这篇来自Go