多模态生成 Flamingo

Flamingo系列是DeepMind提出的多模态大模型,核心目标是实现少样本视觉-语言推理,支持图像、视频与文本的交错输入,并生成自由格式文本输出。以下是其核心创新点、模型架构、公式及数据处理的详细解析:

一、核心创新点

  1. 多模态融合架构

    • 通过感知器重采样器(Perceiver Resampler)门控交叉注意力层(Gated Cross-Attention),将冻结的视觉编码器与大型语言模型(LLM)无缝桥接,避免灾难性遗忘。
    • 支持任意交错的图文序列,例如"文本-图像-文本-视频"混合输入,通过因果掩码机制确保文本仅关注紧邻的视觉内容。
  2. 少样本学习能力

    • 通过上下文学习(In-Context Learning),仅需32个任务示例即可在16个多模态基准上超越微调模型,例如在VQA任务中准确率提升7.3%。
    • 模型直接建模条件概率 p(y\|x) ,其中,其中,其中 x 为交错的图文序列,为交错的图文序列,为交错的图文序列, y 为文本输出,无需任务特定调整。
  3. 动态门控机制

    • 门控交叉注意力层通过可学习参数 \\alpha 控制视觉信息的注入强度,初始化为0以保持纯语言模型行为,训练中逐步激活。
    • 深层Transformer层的门控值更大,允许高层语义更灵活地融合视觉特征。
  4. 大规模多模态数据训练

    • 使用多源网络数据,包括43M网页(M3W)、312M图文对(LTIP)和27M视频文本对(VTP),覆盖自然场景下的图文交织模式。
    • 通过动态掩码策略处理图文交错数据,例如以50%概率让文本关注下一张图而非上一张,增强泛化能力。

二、模型架构与模块

1. 视觉编码器(Vision Encoder)
  • 结构:冻结的Normalizer-Free ResNet(NFNet-F6),通过对比学习预训练,将图像/视频帧编码为时空特征。
  • 视频处理:以1 FPS采样帧,独立编码后拼接为三维特征网格,添加时间嵌入后展平为一维序列。
2. 感知器重采样器(Perceiver Resampler)
  • 功能:将视觉编码器输出的高维可变长特征(如 H \\times W \\times C )压缩为固定长度的64个视觉Token,降低计算复杂度。
  • 实现
    • 可学习查询向量(Query)与视觉特征进行交叉注意力计算,生成固定数量的视觉Token。
    • 公式:
      V~=PerceiverResampler(V)=CrossAttention(Q,K,V) \tilde{V} = \text{PerceiverResampler}(V) = \text{CrossAttention}(Q, K, V) V~=PerceiverResampler(V)=CrossAttention(Q,K,V)
      其中 Q 为可学习查询,为可学习查询,为可学习查询, K 和和和 V 为视觉特征。
3. 冻结语言模型(Frozen LM)
  • 基础模型:Chinchilla(70B参数)或Gopher(280B参数),仅微调插入的门控交叉注意力层。
  • 输入处理:文本通过BPE编码为Token序列,图像/视频用特殊标记 \<\\text{image}\> 表示,序列总长度限制为256。
4. 门控交叉注意力层(Gated XATTN-DENSE)
  • 结构:在LLM的Transformer层间插入新模块,包含交叉注意力和前馈网络(FFN),输出通过 \\tanh(\\alpha) 门控与原层输出融合。
  • 公式
    GCA(Q,K,V)=LayerNorm(Q+σ(β)⊙CrossAttention(Q,K,V)) \text{GCA}(Q, K, V) = \text{LayerNorm}\left( Q + \sigma(\beta) \odot \text{CrossAttention}(Q, K, V) \right) GCA(Q,K,V)=LayerNorm(Q+σ(β)⊙CrossAttention(Q,K,V))
    其中 \\sigma(\\beta) 为可学习门控权重,初始化为0以保持LM原始行为。

三、关键公式及解释

  1. 对比学习损失(预训练视觉编码器)

    • 使用CLIP的InfoNCE损失,对齐图像与文本特征:
      Lcontrast=−1N∑i=1Nlog⁡exp⁡(s(vi,ti)/τ)∑j=1Nexp⁡(s(vi,tj)/τ) \mathcal{L}{\text{contrast}} = -\frac{1}{N} \sum{i=1}^N \log \frac{\exp(s(v_i, t_i)/\tau)}{\sum_{j=1}^N \exp(s(v_i, t_j)/\tau)} Lcontrast=−N1i=1∑Nlog∑j=1Nexp(s(vi,tj)/τ)exp(s(vi,ti)/τ)
      其中 s(\\cdot) 为余弦相似度,为余弦相似度,为余弦相似度, \\tau 为温度参数。
  2. 门控交叉注意力更新

    • 门控值 \\alpha 在训练中动态调整,深层Transformer层的在训练中动态调整,深层Transformer层的在训练中动态调整,深层Transformer层的 \\alpha 更大,允许更多视觉信息注入。
  3. 多任务混合损失

    • 总损失为各数据集负对数似然的加权和:
      L=∑m=1Mλm⋅E(x,y)∼Dm[−∑l=1Llog⁡p(yl∣y<l,x≤l)] \mathcal{L} = \sum_{m=1}^M \lambda_m \cdot \mathbb{E}{(x,y)\sim D_m} \left[ -\sum{l=1}^L \log p(y_l | y_{<l}, x_{\leq l}) \right] L=m=1∑Mλm⋅E(x,y)∼Dm[−l=1∑Llogp(yl∣y<l,x≤l)]
      其中 D_m 为不同数据集(如M3W、LTIP),为不同数据集(如M3W、LTIP),为不同数据集(如M3W、LTIP), \\lambda_m 为权重。

四、数据处理

  1. 数据集构建

    • M3W(MultiModal MassiveWeb):从43M网页提取图文交错序列,包含1.85亿图像和182GB文本,文本中插入 \<\\text{image}\> 标记。
    • LTIP(Long Text & Image Pairs):312M高质量图文对,平均描述长度20.5个Token,覆盖复杂场景。
    • VTP(Video & Text Pairs):27M短视频-文本对,视频采样为1 FPS帧序列。
  2. 数据增强

    • 动态掩码:以50%概率让文本关注下一张图而非上一张,模拟网页中图文关系的不确定性。
    • 混合精度训练:使用FP16存储参数,结合梯度累积减少内存消耗。
  3. 噪声过滤

    • 通过CLIP筛选高对齐度的图文对,过滤低质量数据,提升训练稳定性。

五、系列演进与扩展

  1. Flamingo-2(2024)

    • 创新点:引入图神经网络(GNN)构建多模态知识图谱,支持复杂逻辑关系推理(如因果、对比)。
    • 架构:视觉编码器升级为ViT-G,支持4K分辨率;门控交叉注意力层增加图卷积模块,动态关联视觉元素与语义关系。
  2. 领域扩展

    • 医疗应用:Flamingo-CXR在胸部X光报告生成中,56.1%的重症监护报告被专家评为与人类相当或更优,CheXpert F1分数达0.92。
    • 视频推理:支持多帧输入,通过时间注意力建模动作时序,在VideoQA任务中准确率提升至89%。

六、总结

Flamingo系列通过冻结预训练模型+轻量桥接模块的设计,在少样本多模态推理中取得突破性进展。其核心贡献包括:

  • 架构创新:感知器重采样器和门控交叉注意力层实现高效多模态融合。
  • 数据范式:利用互联网级图文交织数据,突破传统图文对的局限性。
  • 工程优化:混合精度训练、动态门控机制显著降低计算成本。
相关推荐
小鸡吃米…5 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫5 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维6 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS6 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd6 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟7 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然7 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~7 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1