Learning and Leveraging World Models in Visual Representation Learning

Learning and Leveraging World Models in Visual Representation Learning

相关链接:arxiv

关键字:学习世界模型视觉表示学习自监督学习JEPAImage World Models

摘要

本文探索了在自监督视觉表示学习中学习和利用世界模型的方法。作者引入了图像世界模型(Image World Models, IWM),一种学习预测全局光度变换效果的新方法。作者发现有效的IWM模型取决于多种因素,包括条件设置、预测难度和容量。此外,通过微调,IWM可以适应不同的任务,甚至在图像分类和语义分割等任务上与或超越了先前的自监督方法。实验证明,通过IWM学习,可以控制所学表示的抽象级别,能够学习到如对比学习方法中的不变表示,或如遮蔽图像建模的等变表示。

核心方法

IWM建模框架JEPA(Joint-Embedding Predictive Architecture)的核心在于学习一个通过预测来利用世界模型的能力,包括以下方面:

  • 条件设置:通过为预测器提供关于目标的几何信息(例如屏蔽tokens)和变换参数ax→y进行调整。
  • 预测难度:通过使用数据增强来创建目标和源视图,增加了预测的复杂性。
  • 容量:确定了深度的预测器模型以学习适当的变换,以此学习强大的世界模型。

作者通过多种实验测量了这些构建一个强大IWM的关键要素,从而在表示学习中实现良好的性能。

实验说明

以下是对该文中所提方法的实验性能比较的一个展示:

方法 Epochs 无预测器 固定编码器微调预测器 端到端
MAE 300 82.7 82.4 83.3
I-JEPA 300 83.0 82.0 82.0(预训练)
IWMInv (12,384) 300 83.3 82.7 83.3(预训练)
IWMEqui (18,384) 300 82.9 84.4 84.4(预训练)

实验中使用ImageNet进行评估,对比拉动MAE、I-JEPA等方法,以及对IWM的不变和等变世界模型的表现。从表中可以看出,良好的IWM在固定编码器的情况下微调预测器可以达到相当甚至超过单纯微调编码器的性能。

此外,作者还探索了多任务预测器微调,即预测器可以被微调应用于多个任务上,而且综合性能没有明显下降。这展示了世界模型的通用性和适用性。

结论

本文提出了图像世界模型IWM作为学习自监督视觉表示的新框架。考虑到世界模型条件设置、预测任务的复杂性和预测器的容量都对学习性能有显著影响,作者提出不抛弃在表示学习中学到的世界模型,而是在下游任务中进一步利用微调。实验证明该方法在多项视觉任务中表现良好,为自监督视觉表示学习提供了新的方向。

相关推荐
落了一地秋21 分钟前
4.5 优化器中常见的梯度下降算法
人工智能·算法·机器学习
格林威31 分钟前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现卫星图像识别(C#代码,UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
豆浆Whisky37 分钟前
字节Coze入场开源,一文搞定基础部署和实践,放弃Dify?
人工智能·coze
柠檬味拥抱42 分钟前
基于YOLOv8的边坡排水沟堵塞检测与识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
人工智能
李想AI43 分钟前
Coze智能体本地部署保姆级教程
人工智能
TechubNews1 小时前
RWA与DeFi(去中心化金融)的关系是什么?RWA在DeFi中扮演什么角色?
人工智能·区块链
AndrewHZ1 小时前
【图像处理基石】如何对遥感图像进行目标检测?
图像处理·人工智能·pytorch·目标检测·遥感图像·小目标检测·旋转目标检测
非优秀程序员1 小时前
8 个提升开发者效率的小众 AI 项目
前端·人工智能·后端
留意_yl1 小时前
量化感知训练(QAT)流程
人工智能
山烛2 小时前
KNN 算法中的各种距离:从原理到应用
人工智能·python·算法·机器学习·knn·k近邻算法·距离公式