【论文阅读笔记】Smil: Multimodal learning with severely missing modality

Ma M, Ren J, Zhao L, et al. Smil: Multimodal learning with severely missing modality[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(3): 2302-2310.[开源]

本文的核心思想是探讨和解决多模态学习中的一个重要问题:在训练和测试数据中严重缺失某些模态时,如何有效进行学习。具体来说,这里的"严重缺失"指的是在多达90%的训练样本中缺少一些模态信息。在过去的研究中,大多关注于如何处理测试数据的模态不完整性,而对于训练数据的模态不完整性,尤其是严重缺失的情况,探讨较少。文章提出了一种新的方法------SMIL(Severely Missing Modality in Multimodal Learning),使用贝叶斯元学习来同时实现两个目标:灵活性(在训练、测试或两者中处理缺失模态)和效率(从不完整的模态中高效学习)。核心思想是通过扰动潜在特征空间,使单一模态的嵌入能够近似全模态的嵌入。为了验证这一方法的有效性,作者在三个流行的基准数据集(MM-IMDb, CMU-MOSI 和 avMNIST)上进行了一系列实验。结果表明,SMIL在处理严重模态缺失的多模态学习问题方面,相比现有方法和生成型基准(如自编码器和生成对抗网络)具有更好的性能。

  • 模态重建

模态重建是通过使用重建网络来实现的。该网络利用可用的模态信息来生成缺失模态的近似值,从而在潜在特征空间中生成完整的数据,并促进两个方面的灵活性。一方面,该模型可以通过使用完整和不完整的数据进行联合训练来挖掘混合数据的全部潜力。另一方面,在测试时,通过打开或关闭特征重建网络,该模型可以以统一的方式处理不完整或完整的输入。具体来说,重建网络被训练来预测先验权重的权重,而不是直接生成缺失模态。这是通过学习一组可以使用 K-means 或 PCA 在所有模态完整样本之间聚类的模态先验 M 来实现的。然后,通过计算模态先验的加权和来重建缺失模态。这种方法可以有效地处理缺失模态问题,并在实验中取得了良好的结果。

  • 不确定性引导特征正则化

该网络通过对特征进行扰动来评估数据的不确定性,并将不确定性评估用作特征正则化,以克服模型和数据偏差。具体来说,该网络使用一组随机噪声向量来扰动输入特征,并计算每个扰动的输出的方差。然后,将方差用作特征正则化的权重,以减少特征之间的差异。这种方法可以有效地处理低质量和不完整的特征,并提高多模态模型的鲁棒性和泛化能力。与之前的确定性正则化方法相比,不确定性引导特征正则化可以显著提高模型的容量和性能。

  • 贝叶斯元学习框架

通过利用贝叶斯元学习框架来联合优化所有网络实现的。具体来说,主网络 f θ f_{\theta} fθ在重构 f ϕ ϕ f_{\phi_{\phi}} fϕϕ网络和正则化 f ϕ r f_{\phi_{r}} fϕr网络的帮助下在 D m D_m Dm上进行元训练。然后,在 D f D_f Df上对更新后的主网络 f θ ∗ f_{\theta^{*}} fθ∗进行元测试。最后,通过梯度下降元更新网络参数 { θ , ϕ c , ϕ r } \left\{\boldsymbol{\theta}, \boldsymbol{\phi}{c}, \boldsymbol{\phi}{r}\right\} {θ,ϕc,ϕr}。该框架旨在优化目标函数,即最小化 L ( D f ; θ ∗ , ψ ) \mathcal{L}\left(\mathcal{D}^{f} ; \boldsymbol{\theta}^{*}, \boldsymbol{\psi}\right) L(Df;θ∗,ψ),其中 θ ∗ = θ − α ∇ θ L ( D m ; ψ ) \boldsymbol{\theta}^{*}=\boldsymbol{\theta}-\alpha \nabla_{\boldsymbol{\theta}} \mathcal{L}\left(\mathcal{D}^{m} ; \boldsymbol{\psi}\right) θ∗=θ−α∇θL(Dm;ψ), ψ = { ϕ c , ϕ r } \psi=\left\{\phi_{c}, \phi_{r}\right\} ψ={ϕc,ϕr}表示重构和正则化网络参数的组合。贝叶斯元学习的目标是最大化条件似然: log ⁡ p ( Y ∣ X ; θ ) \log p(\mathbf{Y} \mid \mathbf{X} ; \boldsymbol{\theta}) logp(Y∣X;θ)。然而,解决它涉及到不可行的真后验 p ( z ∣ X ) p(z|X) p(z∣X)。因此,通过一种分摊分布 q ( z ∣ X ; ψ ) q(z|X;ψ) q(z∣X;ψ)来近似真后验分布,并且近似的下限形式可以定义为 L θ , ψ = E q ( z ∣ X ; θ , ψ ) [ log ⁡ p ( Y ∣ X , z ; θ ) ] − KL ⁡ [ q ( z ∣ X ; ψ ) ∥ p ( z ∣ X ) ] . \begin{aligned} \mathcal{L}{\boldsymbol{\theta}, \boldsymbol{\psi}}=\boldsymbol{E}{q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\theta}, \boldsymbol{\psi})}[\log p(\mathbf{Y} \mid \mathbf{X}, \mathbf{z} ; \boldsymbol{\theta})]- & \operatorname{KL}[q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\psi}) \| p(\mathbf{z} \mid \mathbf{X})] . \end{aligned} Lθ,ψ=Eq(z∣X;θ,ψ)[logp(Y∣X,z;θ)]−KL[q(z∣X;ψ)∥p(z∣X)].

我们通过蒙特卡罗(MC)抽样来最大化这个下界

相关推荐
www.0216 小时前
linux服务器升级显卡驱动(笔记)
linux·运维·服务器·笔记·ubuntu·服务器环境
せいしゅん青春之我16 小时前
【JavaEE初阶】TCP核心机制10——异常情况的处理
java·网络·笔记·网络协议·tcp/ip·java-ee
wdfk_prog16 小时前
[Linux]学习笔记系列 -- [kernel][time]hrtimer
linux·笔记·学习
摇滚侠16 小时前
Spring Boot3零基础教程,把 Java 程序打包为 Linux 可执行文件,笔记91
java·linux·笔记
四谎真好看17 小时前
Java 黑马程序员学习笔记(进阶篇21)
java·开发语言·笔记·学习·学习笔记
立志成为大牛的小牛17 小时前
数据结构——三十三、Dijkstra算法(王道408)
数据结构·笔记·学习·考研·算法·图论
何故染尘優17 小时前
docker学习笔记,从入门开始!
笔记·学习·docker
少爷晚安。19 小时前
Java零基础学习完整笔记,基于Intellij IDEA开发工具,笔记持续更新中
java·笔记·学习
lkbhua莱克瓦2420 小时前
Java基础——常用API2
java·笔记·github·学习方法
丰锋ff20 小时前
英一2016年真题学习笔记
笔记·学习