论文阅读·多模态工作

ALBEF:ALign BEfore Fusion

  • 动机:预训练的视觉特征和文本特征一开始间隔很远,不利于在最后多模态的编码器进行学习(对齐)
  • 模型本质上:就是CLIP的模型,但是为了保留一个多模态的编码器,因此将BERT的模型拆分成文本和多模态编码器(使用交叉注意力对齐)
  • 三种损失:图文对比损失,图文匹配损失,语言模型损失
  • 图文匹配损失:给定图像和文本,输出一个二分类值,表示是否匹配。这一步通过利用对比损失构造最难样本进行加速。
  • 语言模型损失:给定图像和掩码后的文本,输出掩码处的文本

VLMO

  • 动机:同一双塔模型(CLIP,视觉和文本编码器完全独立且分开);单塔模型(有一个多模态编码器,推理速度)
  • 模型:MOE的架构,只不过MOE换成模态的专家FFN,有一个负责模态融合FFN(VL-FFN)
  • 采用共享注意力权重,分阶段训练单一模态,多模态的训练方式


BLIP

  • 动机:之前工作不能直接实现 的多模态的文本生成(只有解码器),且数据大多数存在图文不匹配问题
  • 模型:借鉴了VLMO的思路,多一个文本模态的解码器,不同模态的编码器架构有一点不同,但是关键是共享大多数参数
  • 自举的方式筛选和增强数据。

BEIT-3

  • 动机:利用掩码语言损失来直接进行损失计算 。同一个多个模态间的计算。
相关推荐
网安INF2 小时前
【论文阅读】-《Formalizing and Benchmarking Prompt Injection Attacks and Defenses》
论文阅读·大模型·prompt·ai安全
CV-杨帆3 小时前
论文阅读:arxiv 2026 A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
论文阅读
张小泡泡3 小时前
Graph Retrieval-Augmented Generation: A Survey
论文阅读·人工智能·rag·graphrag
锅挤1 天前
来一篇儿:《CGBA:Curvature-aware Geometric Black-box Attack》
论文阅读
西柚小萌新1 天前
【论文阅读】--基于大模型的多智能体系统中的记忆设计综述
论文阅读
网安INF1 天前
【论文阅读】-《CGBA: Curvature-aware Geometric Black-box Attack》
论文阅读·人工智能·神经网络·对抗攻击
Eastmount2 天前
[论文阅读] (49)JNCA24 网络威胁狩猎演化技术综述
论文阅读·网络安全·sci·威胁情报·威胁狩猎
SUNNY_SHUN3 天前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
论文阅读·人工智能·算法·3d
0x2113 天前
[论文阅读]In-Place Test-Time Training
论文阅读