论文阅读·多模态工作

ccLianLian2026-04-15 9:39

ALBEF：ALign BEfore Fusion

动机：预训练的视觉特征和文本特征一开始间隔很远，不利于在最后多模态的编码器进行学习(对齐)。
模型本质上：就是CLIP的模型，但是为了保留一个多模态的编码器，因此将BERT的模型拆分成文本和多模态编码器(使用交叉注意力对齐)。
三种损失：图文对比损失，图文匹配损失，语言模型损失
图文匹配损失：给定图像和文本，输出一个二分类值，表示是否匹配。这一步通过利用对比损失构造最难样本进行加速。
语言模型损失：给定图像和掩码后的文本，输出掩码处的文本 。

VLMO

动机：同一双塔模型(CLIP，视觉和文本编码器完全独立且分开)；单塔模型(有一个多模态编码器，推理速度)
模型：MOE的架构，只不过MOE换成模态的专家FFN，有一个负责模态融合FFN(VL-FFN)
采用共享注意力权重，分阶段训练单一模态，多模态的训练方式。

BLIP

动机：之前工作不能直接实现 的多模态的文本生成(只有解码器)，且数据大多数存在图文不匹配问题。
模型：借鉴了VLMO的思路，多一个文本模态的解码器，不同模态的编码器架构有一点不同，但是关键是共享大多数参数 。
自举的方式筛选和增强数据。

BEIT-3

动机：利用掩码语言损失来直接进行损失计算 。同一个多个模态间的计算。

上一篇：Laravel 5.x核心升级特性详解

下一篇：深入理解 Rust 的静态分发与动态分发：从 `impl Trait` 到 `dyn Trait`

热门推荐

01GitHub 镜像站点 02DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 03Codex 接入 DeepSeek API 完整配置文档 04【AI】2026 年具身智能模型和世界模型总结 05【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08几个好用的ip纯净度检测网站 09CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）10API Key 登录 Codex 也能用插件了，还支持会话删除和导出