多模态生成 Flamingo

Flamingo系列是DeepMind提出的多模态大模型，核心目标是实现少样本视觉-语言推理，支持图像、视频与文本的交错输入，并生成自由格式文本输出。以下是其核心创新点、模型架构、公式及数据处理的详细解析：

多模态融合架构
- 通过感知器重采样器（Perceiver Resampler）和门控交叉注意力层（Gated Cross-Attention），将冻结的视觉编码器与大型语言模型（LLM）无缝桥接，避免灾难性遗忘。
- 支持任意交错的图文序列，例如"文本-图像-文本-视频"混合输入，通过因果掩码机制确保文本仅关注紧邻的视觉内容。
少样本学习能力
- 通过上下文学习（In-Context Learning），仅需32个任务示例即可在16个多模态基准上超越微调模型，例如在VQA任务中准确率提升7.3%。
- 模型直接建模条件概率 $p(y\|x) ，其中，其中，其中 x 为交错的图文序列，为交错的图文序列，为交错的图文序列， y$ 为文本输出，无需任务特定调整。
动态门控机制
- 门控交叉注意力层通过可学习参数 $\\alpha$ 控制视觉信息的注入强度，初始化为0以保持纯语言模型行为，训练中逐步激活。
- 深层Transformer层的门控值更大，允许高层语义更灵活地融合视觉特征。
大规模多模态数据训练
- 使用多源网络数据，包括43M网页（M3W）、312M图文对（LTIP）和27M视频文本对（VTP），覆盖自然场景下的图文交织模式。
- 通过动态掩码策略处理图文交错数据，例如以50%概率让文本关注下一张图而非上一张，增强泛化能力。

功能：将视觉编码器输出的高维可变长特征（如 $H \\times W \\times C$ ）压缩为固定长度的64个视觉Token，降低计算复杂度。
实现：
- 可学习查询向量（Query）与视觉特征进行交叉注意力计算，生成固定数量的视觉Token。
- 公式：
  V~=PerceiverResampler(V)=CrossAttention(Q,K,V) \tilde{V} = \text{PerceiverResampler}(V) = \text{CrossAttention}(Q, K, V) V~=PerceiverResampler(V)=CrossAttention(Q,K,V)
  其中 $Q 为可学习查询，为可学习查询，为可学习查询， K 和和和 V$ 为视觉特征。

结构：在LLM的Transformer层间插入新模块，包含交叉注意力和前馈网络（FFN），输出通过 $\\tanh(\\alpha)$ 门控与原层输出融合。
公式：
GCA(Q,K,V)=LayerNorm(Q+σ(β)⊙CrossAttention(Q,K,V)) \text{GCA}(Q, K, V) = \text{LayerNorm}\left( Q + \sigma(\beta) \odot \text{CrossAttention}(Q, K, V) \right) GCA(Q,K,V)=LayerNorm(Q+σ(β)⊙CrossAttention(Q,K,V))
其中 $\\sigma(\\beta)$ 为可学习门控权重，初始化为0以保持LM原始行为。

对比学习损失（预训练视觉编码器）
- 使用CLIP的InfoNCE损失，对齐图像与文本特征：
  Lcontrast=−1N∑i=1Nlog⁡exp⁡(s(vi,ti)/τ)∑j=1Nexp⁡(s(vi,tj)/τ) \mathcal{L}{\text{contrast}} = -\frac{1}{N} \sum{i=1}^N \log \frac{\exp(s(v_i, t_i)/\tau)}{\sum_{j=1}^N \exp(s(v_i, t_j)/\tau)} Lcontrast=−N1i=1∑Nlog∑j=1Nexp(s(vi,tj)/τ)exp(s(vi,ti)/τ)
  其中 $s(\\cdot) 为余弦相似度，为余弦相似度，为余弦相似度， \\tau$ 为温度参数。
门控交叉注意力更新
- 门控值 $\\alpha 在训练中动态调整，深层Transformer层的在训练中动态调整，深层Transformer层的在训练中动态调整，深层Transformer层的 \\alpha$ 更大，允许更多视觉信息注入。
多任务混合损失
- 总损失为各数据集负对数似然的加权和：
  L=∑m=1Mλm⋅E(x,y)∼Dm[−∑l=1Llog⁡p(yl∣y<l,x≤l)] \mathcal{L} = \sum_{m=1}^M \lambda_m \cdot \mathbb{E}{(x,y)\sim D_m} \left[ -\sum{l=1}^L \log p(y_l | y_{<l}, x_{\leq l}) \right] L=m=1∑Mλm⋅E(x,y)∼Dm[−l=1∑Llogp(yl∣y<l,x≤l)]
  其中 $D_m 为不同数据集（如M3W、LTIP），为不同数据集（如M3W、LTIP），为不同数据集（如M3W、LTIP）， \\lambda_m$ 为权重。

数据集构建
- M3W（MultiModal MassiveWeb）：从43M网页提取图文交错序列，包含1.85亿图像和182GB文本，文本中插入 $\<\\text{image}\>$ 标记。
- LTIP（Long Text & Image Pairs）：312M高质量图文对，平均描述长度20.5个Token，覆盖复杂场景。
- VTP（Video & Text Pairs）：27M短视频-文本对，视频采样为1 FPS帧序列。
数据增强
- 动态掩码：以50%概率让文本关注下一张图而非上一张，模拟网页中图文关系的不确定性。
- 混合精度训练：使用FP16存储参数，结合梯度累积减少内存消耗。
噪声过滤
- 通过CLIP筛选高对齐度的图文对，过滤低质量数据，提升训练稳定性。

Flamingo-2（2024）
- 创新点：引入图神经网络（GNN）构建多模态知识图谱，支持复杂逻辑关系推理（如因果、对比）。
- 架构：视觉编码器升级为ViT-G，支持4K分辨率；门控交叉注意力层增加图卷积模块，动态关联视觉元素与语义关系。
领域扩展
- 医疗应用：Flamingo-CXR在胸部X光报告生成中，56.1%的重症监护报告被专家评为与人类相当或更优，CheXpert F1分数达0.92。
- 视频推理：支持多帧输入，通过时间注意力建模动作时序，在VideoQA任务中准确率提升至89%。

Flamingo系列通过冻结预训练模型+轻量桥接模块的设计，在少样本多模态推理中取得突破性进展。其核心贡献包括：