Transformer 31. ALBEF:Align before Fuse,用「先对齐、再融合」解决图文交互难学的问题摘要:ALBEF(Li et al., 2021)是一个典型的 “先对齐(Align)再融合(Fuse)” 的视觉-语言预训练框架:先在 单模态编码器 上加入 图文对比学习(ITC),把图像与文本拉到同一个语义空间;再用带 跨模态注意力 的 多模态编码器 去做 图文匹配(ITM) 和 掩码语言建模(MLM),让模型学到更“落地”的细粒度对齐。为了应对网页图文对的噪声,ALBEF 进一步引入 Momentum Distillation(动量蒸馏):用 EMA 的动量模型做教师,生成软目标(pseudo-ta