多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析2-对比模型与底层模型的基本结构

参考文：Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion

一、论文中的主要模型

论文原文用于对比的模型主要有三个，分别是：1.传统静态晚期融合模型Late Fusion；2.动态多模态融合DynMM；3.质量感知多模态融合QMF

1.传统静态晚期融合模型Late Fusion

传统静态晚期融合是一种多模态信息融合方法，通常在模型预测阶段进行融合。各模态数据独立训练模型，生成各自的预测结果（如分类概率或回归值），最终通过加权平均、投票或学习融合策略（如逻辑回归）整合结果。典型应用包括多模态分类任务（如音频+文本的情感分析）。

总的来说，就是各个模态各自预测完以后再用加和的方法直接加到一起得结果。

相对应的还有中期和早期融合。

中期融合（Intermediate Fusion）

中期融合在模型中间层进行交互，如通过交叉注意力机制或共享隐层交换模态信息。典型代表是多模态Transformer。

总的来说，就是各个模态的注意力头进行交叉，共享各个模态的特征进行训练。

早期融合（Early Fusion）

早期融合在输入或特征层面直接合并多模态数据，如拼接文本TF-IDF特征与图像CNN特征，输入单一模型处理。

总的来说，就是各个模态的向量嵌入阶段就把各个向量化的模态拼到一起，然后统一输入一个编码器进行训练。

对比

融合方式	融合阶段	优点	缺点	适用场景
早期融合	输入/特征层	捕获细粒度交互；端到端高效	需严格对齐；缺失模态适应性差	模态同步且高相关
中期融合	模型中间层	动态交互；灵活调整模态权重	计算复杂；需大量数据	需部分模态互补信息
晚期融合	预测层	模块化；容错性强；支持异构模型	忽略早期交互；性能依赖融合策略	模态异步或独立性高

2.动态多模态融合DynMM

参考：论文阅读2-《Dynamic Multimodal Fusion》 - 技术栈

动态多模态融合（Dynamic Multimodal Fusion, DynMM）是一种针对多模态数据的自适应融合方法，旨在根据输入数据的动态特性（如模态质量、相关性或任务需求）调整融合策略，以提升模型性能。传统多模态融合通常采用静态权重或固定架构，而DynMM通过引入动态机制（如注意力、门控或路由）实现更灵活的模态交互。

总的来说，分两方面进行调优：

1、训练多个专家网络，不同网络纳入不同的模态组合，然后用一个门函数来根据当前各个模态的特征参数（比如图像清晰度，文本连贯性等等）选择专家网络。

2、把选中的专家网络的计算消耗纳入损失函数，来进行训练。

3.质量感知多模态融合QMF

参考：ICML 2023 | 可证明的动态多模态融合框架：一个简单而有用的理论_方法_问题_分类器

一种针对多模态数据（如文本、图像、音频等）融合的框架，特别关注处理模态间质量不平衡或低质量输入的情况。其核心思想是通过动态评估各模态的质量权重，自适应调整融合策略，提升模型在真实场景中的鲁棒性。

总的来说，分两方面进行调优：

1、不训练那么多专家网络了，只需要训练一个质量评估网络评估各个模态的质量。

2、以质量为标准，使用门函数或者注意力机制或者神经网络什么的来生成合成权重。

二、论文代码中的可调用的基础模型

论文代码用于测试或者底层调用的模型主要有三个，分别是：1.词袋模型bow；2.文本encoder-bert；3.图像encoder-resnet；4.mmbt；以及他们的各种混合。

1.词袋模型bow

词袋模型（Bag of Words, BOW）是一种用于自然语言处理的文本表示方法，将文本视为无序的词汇集合，忽略语法和词序，仅关注词频或是否存在。

词汇表构建：从所有文档中提取唯一词汇构成词汇表。

向量化表示：每篇文档表示为固定长度的向量，维度与词汇表一致，值可以是词频（Count）或二进制（0/1表示是否存在）。

其实就是：先把词按目标（比如情感）分类，然后统计词频，哪一种情感的频率高就输出哪一种情感。

2.文本encoder-bert

bert的初步功能其实可以理解成transformer的词嵌入那一层的作用；但是比传统的词嵌入更加精确，会剔除词汇不属于句子表达中的含义。在该任务里可以看作是把词汇真实意思嵌入后，再放到分类层或者说分类模型里做分类。

参考：一文读懂 BERT 模型：从原理到实际应用，看这一篇就够了！-CSDN博客

与传统单向语言模型（如 GPT）不同，BERT 通过掩码语言模型（MLM）和下一句预测（NSP）两项预训练任务，实现了对文本的双向上下文建模。MLM 随机掩盖输入文本中的部分词汇，迫使模型根据上下文预测被掩盖的词，类似于 "完形填空"；NSP 则判断两个句子是否为连续文本，强化模型对语义连贯性的理解。这种双向编码能力使 BERT 能够更精准地捕捉词汇的语义关联。

3.图像encoder-resnet

图像输入encoder的流程：1.把图像划分成小块->2.把各个小块输入到resNet->3.取某一隐藏层作为token的嵌入向量输入transformer结构->4.再全连接划分情感

1、图像分块处理

将输入图像划分为固定大小的非重叠小块（如16x16像素），每个小块视为一个局部区域。分块后通过线性投影或卷积操作将像素值转换为向量形式，形成初始的token序列。

2、ResNet特征提取

分块后的图像区域（或整张图像）输入ResNet backbone。ResNet通过残差结构逐层提取多层次特征，通常选择中间某层的输出（如Stage-3或Stage-4的卷积层输出）作为局部特征的编码表示。对于全局特征，可能使用最终的平均池化层输出。

3、隐藏层特征选择

从ResNet的指定隐藏层提取特征图，将其展平为空间token序列。例如，若选择Layer3的输出（尺寸为H×W×C），可将其重塑为N×C的矩阵（N=H×W），每个C维向量对应一个空间位置的token嵌入。

4、情感分类结构

token序列可直接输入Transformer进行全局关系建模，或与全局平均池化特征拼接。最终通过全连接层映射到情感类别空间，配合Softmax输出概率分布。部分实现会先用Transformer聚合token信息，再通过MLP头分类。

4.用于图像和文本分类的有监督多模态双向Transformer-mmbt

参考：MMBT: 用于图像和文本分类的有监督多模态双向Transformer - 知乎

MMBT是一种结合图像和文本数据进行分类的有监督多模态模型，基于Transformer架构实现跨模态信息交互。其核心思想是通过双向注意力机制融合视觉和文本特征，提升分类任务的性能。

用我的理解来说就是：一种固定了各个模态结构的综合架构 。模态融合大概可以分为早期模态融合：**Early Fusion。**因为各个模态在输入注意力头之前就拼接过了，拼接方式大概如下：