MoCo 对比自监督学习

volcanical2024-12-21 21:04

MoCo通过自监督学习来训练一个效果不错的编码器。

主要实现：

输入一张图片，图片增强后和原来图片是一个正样本对，其他的图片是负样本对。
原始图片丢入encoder，其他的图片一起丢入momentum encoder，然后计算InfoNCE，其实就是一个(K+1)的交叉熵，我们需要的是让正样本对之间的概率最大。

为什么需要momentum encoder，不能直接使用一样的encoder，或者单独训练两个encoder。

如果各自训练encoder的话，训练会很不稳定，在对比学习中，模型需要区分正样本和大量的负样本。为了有效地进行这种区分，负样本的表示需要相对稳定。如果使用同一个编码器来同时生成查询和键的表示，编码器参数会随着每次迭代不断变化，这会导致负样本的表示不稳定，从而影响对比学习的效果。

也有办法解决，就是把batch_size设置得特别大，那么每一轮都能近似得到全局样本的特征，每一轮的对比结果都很好。(SimCLR)。
那为什么不直接把key的字典固定，只有query的encoder

使用固定字典而不采用键编码器会导致负样本多样性受限、表示过时、学习信号减弱、过拟合风险增加、扩展性和适应性差。
通过使用一个队列，然后设置动量更新，使得key的encoder更新缓慢，而且队列又是先进先出，保证队列内的特征表示较为接近，从而实现了节约计算资源，又能保持大量负样本，而且是动态的负样本表示。（队列内不同batch的负样本presentation是不同encoder生成的，但是由于momentum encoder更新缓慢，所以较为相似，从而做到静中有动）