MoCo 对比自监督学习

MoCo通过自监督学习来训练一个效果不错的编码器。

主要实现:

  1. 输入一张图片,图片增强后和原来图片是一个正样本对,其他的图片是负样本对。
  2. 原始图片丢入encoder,其他的图片一起丢入momentum encoder,然后计算InfoNCE,其实就是一个(K+1)的交叉熵,我们需要的是让正样本对之间的概率最大。

问题:

  1. 为什么需要momentum encoder,不能直接使用一样的encoder,或者单独训练两个encoder。

    如果各自训练encoder的话,训练会很不稳定,在对比学习中,模型需要区分正样本和大量的负样本。为了有效地进行这种区分,负样本的表示需要相对稳定。如果使用同一个编码器来同时生成查询和键的表示,编码器参数会随着每次迭代不断变化,这会导致负样本的表示不稳定,从而影响对比学习的效果。

    也有办法解决,就是把batch_size设置得特别大,那么每一轮都能近似得到全局样本的特征,每一轮的对比结果都很好。(SimCLR)。

  2. 那为什么不直接把key的字典固定,只有query的encoder

    使用固定字典而不采用键编码器会导致负样本多样性受限、表示过时、学习信号减弱、过拟合风险增加、扩展性和适应性差。

  3. 通过使用一个队列,然后设置动量更新,使得key的encoder更新缓慢,而且队列又是先进先出,保证队列内的特征表示较为接近,从而实现了节约计算资源,又能保持大量负样本,而且是动态的负样本表示。(队列内不同batch的负样本presentation是不同encoder生成的,但是由于momentum encoder更新缓慢,所以较为相似,从而做到静中有动)

相关推荐
TTGGGFF1 小时前
机器视觉:智能车大赛视觉组技术文档——用 YOLO3 Nano 实现目标检测并部署到 OpenART
人工智能·目标检测·计算机视觉
CodeJourney.1 小时前
Python开发可视化音乐播放器教程(附代码)
数据库·人工智能·python
强德亨上校1 小时前
神经网络详解
人工智能·深度学习·神经网络
视***间1 小时前
275TOPS算力边缘计算盒子的价值洞察与市场定位---视程空间
人工智能·边缘计算
AI模块工坊1 小时前
AAAI 2025 | 即插即用,川大Mesorch刷新SOTA,用「介观」Transformer架构终结图像造假
人工智能·深度学习·计算机视觉·架构·transformer
周杰伦_Jay1 小时前
【OpenManus深度解析】MetaGPT团队打造的开源AI智能体框架,打破Manus闭源壁垒。包括架构分层、关键技术特点等内容
人工智能·深度学习·opencv·架构·开源
_李小白1 小时前
【OPENGL ES 3.0 学习笔记】第九天:缓存、顶点和顶点数组
笔记·学习·elasticsearch
文火冰糖的硅基工坊2 小时前
[嵌入式系统-146]:五次工业革命对应的机器人形态的演进、主要功能的演进以及操作系统的演进
前端·网络·人工智能·嵌入式硬件·机器人
猫头虎2 小时前
openAI发布的AI浏览器:什么是Atlas?(含 ChatGPT 浏览功能)macOS 离线下载安装Atlas完整教程
人工智能·macos·chatgpt·langchain·prompt·aigc·agi
老六哥_AI助理指南2 小时前
为什么AI会改变单片机的未来?
人工智能·单片机·嵌入式硬件