论文阅读2-《Dynamic Multimodal Fusion》

UncleDrew_lsy2024-07-10 13:07

摘要

（DynMM），一种新的方法，自适应融合多模态数据和 d在推理过程中生成依赖于数据的前向路径。为此，我们提出了一种门控功能来提供基于多模态特征和一个的模态级或融合级决策提高计算效率的源感知损失函数。

细节

模态级别决策

假设有三种模态，x1,x2,x3,则有6种专家网络：E1(x1), E2(x2), E3(x3),E4(x1, x2), E5(x2, x3), E6(x1, x2), E7(x1, x2, x3)；
利用一个门控，选择B个专家网络：y =

其中，xi表示第i位专家作为输入的模态的子集;
假设有两种模态：

融合级别决策

在融合的过程中加入决策：oij表示每个中间模块的输出，

损失函数

C（Ei）表示执行一个专家网络Ei的计算成本。类似地，C（Oi，j）表示第j个细胞中第i个融合操作的计算代价；Ltask为任务的损失。
但是门控g是one-hot是离散的不可微，所以变成一个软值，

训练阶段

pretrain stage
在训练的早期阶段遵循门网络的稀疏决策会导致偏差，很少被选择的分支有更少和更小的权重更新；糟糕的性能可能导致它们被选择的次数更少（因此永远不会改进）；所以要保证每个分支在门控模块参与进来之前都得到了完全的优化；
对于模态级的DynMM，充分地训练了每个专家网络；
对于融合级的DynMM，对每个融合单元采用随机决策（即从候选操作集合中随机选择一个操作），从而使动态网络的每条路径都是一致的。
微调
第二阶段：微调。在这个阶段，我们将门控网络纳入到我们的优化过程中。利用上述介绍的重参数化技术，我们共同优化了动态网络具有以端到端方式进行的门控网络。

上一篇：递归（四）—— 初识暴力递归之“打印字符串的全排列”

下一篇：【无标题】

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10TRAE Rules 实践：为项目配置 6A 工作流