论文阅读2-《Dynamic Multimodal Fusion》

摘要

(DynMM),一种新的方法,自适应融合多模态数据和 d在推理过程中生成依赖于数据的前向路径。为此,我们提出了一种门控功能来提供基于多模态特征和一个的模态级或融合级决策提高计算效率的源感知损失函数。

细节

模态级别决策

  • 假设有三种模态,x1,x2,x3,则有6种专家网络:E1(x1), E2(x2), E3(x3),E4(x1, x2), E5(x2, x3), E6(x1, x2), E7(x1, x2, x3);
  • 利用一个门控,选择B个专家网络:y =

    其中,xi表示第i位专家作为输入的模态的子集;
    假设有两种模态:

融合级别决策

在融合的过程中加入决策:oij表示每个中间模块的输出,

损失函数

C(Ei)表示执行一个专家网络Ei的计算成本。类似地,C(Oi,j)表示第j个细胞中第i个融合操作的计算代价;Ltask为任务的损失。
但是门控g是one-hot是离散的不可微,所以变成一个软值,

训练阶段

  • pretrain stage
    在训练的早期阶段遵循门网络的稀疏决策会导致偏差,很少被选择的分支有更少和更小的权重更新;糟糕的性能可能导致它们被选择的次数更少(因此永远不会改进);所以要保证每个分支在门控模块参与进来之前都得到了完全的优化;
    对于模态级的DynMM,充分地训练了每个专家网络;
    对于融合级的DynMM,对每个融合单元采用随机决策(即从候选操作集合中随机选择一个操作),从而使动态网络的每条路径都是一致的。
  • 微调
    第二阶段:微调。在这个阶段,我们将门控网络纳入到我们的优化过程中。利用上述介绍的重参数化技术,我们共同优化了动态网络 具有以端到端方式进行的门控网络。
相关推荐
清风吹过15 小时前
LSTM新架构论文分享6:LSTM+Transformer融合
论文阅读·人工智能·深度学习·神经网络·lstm·transformer
DuHz18 小时前
汽车角雷达波形设计与速度模糊解决方法研究——论文阅读
论文阅读·物联网·算法·汽车·信息与通信·信号处理
有点不太正常18 小时前
Differentially Private Synthetic Text Generation for RAG——论文阅读
论文阅读·大模型·llm·rag
DuHz18 小时前
基于多普勒频率和距离变化率联合测量的增强型速度估计方法——论文阅读
论文阅读·目标检测·汽车·信息与通信·信号处理
墨绿色的摆渡人18 小时前
论文笔记(九十三)ManipulationNet: Benchmarking
论文阅读
bylander19 小时前
【论文阅读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
论文阅读·语言模型·智能体
吃吃今天努力学习了吗2 天前
【论文阅读】Segment Any 3D Gaussians
论文阅读·3d·3dgs·三维分割
MoyiTech2 天前
【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
论文阅读·人工智能·语言模型
红苕稀饭6662 天前
LLaVA-OneVision论文阅读
论文阅读
CV-杨帆2 天前
论文阅读:arxiv 2025 Scaling Laws for Differentially Private Language Models
论文阅读·人工智能·语言模型