MoCo 对比自监督学习

MoCo通过自监督学习来训练一个效果不错的编码器。

主要实现:

  1. 输入一张图片,图片增强后和原来图片是一个正样本对,其他的图片是负样本对。
  2. 原始图片丢入encoder,其他的图片一起丢入momentum encoder,然后计算InfoNCE,其实就是一个(K+1)的交叉熵,我们需要的是让正样本对之间的概率最大。

问题:

  1. 为什么需要momentum encoder,不能直接使用一样的encoder,或者单独训练两个encoder。

    如果各自训练encoder的话,训练会很不稳定,在对比学习中,模型需要区分正样本和大量的负样本。为了有效地进行这种区分,负样本的表示需要相对稳定。如果使用同一个编码器来同时生成查询和键的表示,编码器参数会随着每次迭代不断变化,这会导致负样本的表示不稳定,从而影响对比学习的效果。

    也有办法解决,就是把batch_size设置得特别大,那么每一轮都能近似得到全局样本的特征,每一轮的对比结果都很好。(SimCLR)。

  2. 那为什么不直接把key的字典固定,只有query的encoder

    使用固定字典而不采用键编码器会导致负样本多样性受限、表示过时、学习信号减弱、过拟合风险增加、扩展性和适应性差。

  3. 通过使用一个队列,然后设置动量更新,使得key的encoder更新缓慢,而且队列又是先进先出,保证队列内的特征表示较为接近,从而实现了节约计算资源,又能保持大量负样本,而且是动态的负样本表示。(队列内不同batch的负样本presentation是不同encoder生成的,但是由于momentum encoder更新缓慢,所以较为相似,从而做到静中有动)

相关推荐
神一样的老师2 小时前
TinyML在OBD-II边缘设备上燃油类型分类的实现与优化
人工智能
明月清了个风3 小时前
数据结构与算法学习笔记----Floyd算法
笔记·学习·算法
Riching53 小时前
对BG兼并点的理解-不断刷新版
经验分享·学习
hunteritself3 小时前
OpenAI直播发布第11天:ChatGPT桌面客户端升级,就这?
人工智能·gpt·chatgpt·语音识别·claude
MarkHD3 小时前
第二十四天 循环神经网络(RNN)基本原理与实现
人工智能·rnn·深度学习
爱研究的小牛3 小时前
DeepFaceLab技术浅析(六):后处理过程
人工智能·深度学习·机器学习·aigc
AI_NEW_COME4 小时前
高新技术企业知识管理新篇章:高效内部知识库建设
人工智能
YZW01234 小时前
QT之QML学习:QFileDialog 报错log4cplus:ERROR解决方案
开发语言·qt·学习
orion-orion4 小时前
概率论沉思录:初等假设检验
人工智能·概率论·科学哲学
南宫生4 小时前
力扣-图论-15【算法学习day.65】
java·学习·算法·leetcode·图论