论文阅读·多模态工作

ALBEF:ALign BEfore Fusion

  • 动机:预训练的视觉特征和文本特征一开始间隔很远,不利于在最后多模态的编码器进行学习(对齐)
  • 模型本质上:就是CLIP的模型,但是为了保留一个多模态的编码器,因此将BERT的模型拆分成文本和多模态编码器(使用交叉注意力对齐)
  • 三种损失:图文对比损失,图文匹配损失,语言模型损失
  • 图文匹配损失:给定图像和文本,输出一个二分类值,表示是否匹配。这一步通过利用对比损失构造最难样本进行加速。
  • 语言模型损失:给定图像和掩码后的文本,输出掩码处的文本

VLMO

  • 动机:同一双塔模型(CLIP,视觉和文本编码器完全独立且分开);单塔模型(有一个多模态编码器,推理速度)
  • 模型:MOE的架构,只不过MOE换成模态的专家FFN,有一个负责模态融合FFN(VL-FFN)
  • 采用共享注意力权重,分阶段训练单一模态,多模态的训练方式


BLIP

  • 动机:之前工作不能直接实现 的多模态的文本生成(只有解码器),且数据大多数存在图文不匹配问题
  • 模型:借鉴了VLMO的思路,多一个文本模态的解码器,不同模态的编码器架构有一点不同,但是关键是共享大多数参数
  • 自举的方式筛选和增强数据。

BEIT-3

  • 动机:利用掩码语言损失来直接进行损失计算 。同一个多个模态间的计算。
相关推荐
数智工坊14 小时前
【RT-DETR论文阅读】:首个实时端到端Transformer检测器,DETR正式超越YOLO
论文阅读·yolo·transformer
数智工坊18 小时前
【Transfer CLIP论文阅读】跨模态大模型赋能!CLIP迁移学习实现超强泛化图像去噪
论文阅读·人工智能·迁移学习
小马哥crazymxm1 天前
arXiv论文周选 (2026-W18)
论文阅读·科技·考研
薛定e的猫咪2 天前
强化学习中的OOD检测:从状态异常到分布偏移
论文阅读·人工智能·深度学习
Chunyyyen2 天前
【第四十三周】论文阅读
论文阅读
数智工坊3 天前
【Mask2Former论文阅读】:基于掩码注意力的通用分割Transformer,大一统全景/实例/语义分割
论文阅读·深度学习·transformer
大模型最新论文速读3 天前
Select to Think:蒸馏 token 排序能力,效果平均提升24%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
chnyi6_ya3 天前
论文笔记 | RefineAnything:面向完美局部细节的多模态区域精细化
论文阅读·人工智能·学习
数智工坊4 天前
【SAM-DETR论文阅读】:基于语义对齐匹配的DETR极速收敛检测框架
网络·论文阅读·人工智能·深度学习·transformer
张较瘦_5 天前
[论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准
论文阅读·人工智能·软件工程