论文阅读2-《Dynamic Multimodal Fusion》

摘要

(DynMM),一种新的方法,自适应融合多模态数据和 d在推理过程中生成依赖于数据的前向路径。为此,我们提出了一种门控功能来提供基于多模态特征和一个的模态级或融合级决策提高计算效率的源感知损失函数。

细节

模态级别决策

  • 假设有三种模态,x1,x2,x3,则有6种专家网络:E1(x1), E2(x2), E3(x3),E4(x1, x2), E5(x2, x3), E6(x1, x2), E7(x1, x2, x3);
  • 利用一个门控,选择B个专家网络:y =

    其中,xi表示第i位专家作为输入的模态的子集;
    假设有两种模态:

融合级别决策

在融合的过程中加入决策:oij表示每个中间模块的输出,

损失函数

C(Ei)表示执行一个专家网络Ei的计算成本。类似地,C(Oi,j)表示第j个细胞中第i个融合操作的计算代价;Ltask为任务的损失。
但是门控g是one-hot是离散的不可微,所以变成一个软值,

训练阶段

  • pretrain stage
    在训练的早期阶段遵循门网络的稀疏决策会导致偏差,很少被选择的分支有更少和更小的权重更新;糟糕的性能可能导致它们被选择的次数更少(因此永远不会改进);所以要保证每个分支在门控模块参与进来之前都得到了完全的优化;
    对于模态级的DynMM,充分地训练了每个专家网络;
    对于融合级的DynMM,对每个融合单元采用随机决策(即从候选操作集合中随机选择一个操作),从而使动态网络的每条路径都是一致的。
  • 微调
    第二阶段:微调。在这个阶段,我们将门控网络纳入到我们的优化过程中。利用上述介绍的重参数化技术,我们共同优化了动态网络 具有以端到端方式进行的门控网络。
相关推荐
DuHz7 小时前
用于汽车应用的数字码调制(DCM)雷达白皮书精读
论文阅读·算法·自动驾驶·汽车·信息与通信·信号处理
@––––––9 小时前
论文阅读笔记:The Bitter Lesson (苦涩的教训)
论文阅读·人工智能·笔记
张较瘦_10 小时前
[论文阅读] AI + 软件工程 | 突破AAA游戏测试瓶颈!选择性插桩让代码覆盖“轻装上阵”
论文阅读·游戏·软件工程
STLearner10 小时前
MM 2025 | 时间序列(Time Series)论文总结【预测,分类,异常检测,医疗时序】
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
心心喵12 小时前
[论文笔记] Agent is all you need | AI智能体前沿进展总结
论文阅读
檐下翻书1731 天前
免费工艺流程模板下载_在线编辑建筑/汽车/物流工艺流程图图表
论文阅读·汽车·流程图·论文笔记·pcb工艺
数说星榆1811 天前
小型工厂工艺流程图制作_在线设计装配/焊接/冲压工艺流程模板
大数据·论文阅读·人工智能·流程图·论文笔记
DuHz1 天前
UWB 雷达综述精读:应用、标准、信号处理、数据集、芯片与未来方向——论文阅读
论文阅读·学习·算法·信息与通信·信号处理
程途拾光1581 天前
化工生产工艺流程图基础符号规范与详细绘制步骤教程
论文阅读·信息可视化·流程图·课程设计·pcb工艺
qq_416276421 天前
用于说话人验证与说话人日志的通道对抗训练
论文阅读·深度学习