论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“

作为阅读论文的笔记方便理解与复习。

1.无法逾越的性能鸿沟

论文中出现了一个公式如下所示:

论文通过这个式子揭示了一个固有的局限性:除非文本特征空间有足够的能力来表示最优分类器,否则无法实现两者的完美对齐。

其中:

:是存在于图像空间中的理论最优分类器。

:是文本分类器在图像空间中的"影子",是它能达到的最佳近似。

的奇异值。

:是的秩。

:是的秩,

:是F范数 ,全称是 Frobenius范数 ,是衡量矩阵整体大小的一种方法。

下面我将对这个式子的各部分进行详细的介绍,方便理解。

①F范数

对于一个m×n的矩阵A,其Frobenius范数定义为:

简单说就是:所有元素平方和,再开平方根

因为通常要平方更方便,所以经常看到平方F范数

与奇异值的关系:

奇异值由大到小分布,因此可以得知公式右方的较小的个奇异值的平方和。

②x、W和T到底是什么?

代表图像的特征向量

在标准的线性分类器设定中:

  • 是一个 权重矩阵 ,形状为

    • = 输入特征的维度

    • = 分类的类别数

  • 对于一个输入特征向量 ,分类过程是:

    得到的分数向量 ,每个元素代表对应类别的得分。

在原文的多模态语境中:

  • ​ = 在图像特征上训练的最优分类器权重

  • ​ = 在文本特征上训练的分类器权重(投影到图像空间后的形式)

③对角矩阵情况的举例

为了方便理解与计算,这里的例子中是一个对角矩阵,后面会对非对角矩阵的情况进行另外的分析。

设最优图像分类器:

其形状为为2,假设对应的为1,符合原公式中的条件。

此时,公式右边的项,即最小误差为

这意味着:

  • 类别1的权重向量: → 只关注第一个特征

  • 类别2的权重向量: → 只关注第二个特征

对于输入

也就是说,在最优分类器上,第一类的得分为,第二类的得分为,对应前文分析中的类别一只关注第一个特征,类别二只关注第二个特征。

现在假设一个秩为1的文本分类器:

因为的秩小于的秩,所以的两个类别权重必须线性相关,即线性相关,很容易看出该例子符合条件。

  • 类别1的权重→ 只关注第一个特征
  • 类别2的权重→ 也只关注第一个特征

对于输入

也就是说,在文本分类器上,第一类的得分为,第二类的得分为。与最优分类器相比,第一类的得分对第一个特征的权重不足,第二类得分错误的相关了第一个特征,忽略了第二个特征

此时误差

由这个公式可以很清楚地看出来,文本分类器中,第一类得分对第一个特征的权重不足、第二类得分错误相关了第一个特征、第二类得分忽略了第二个特征,三者都导致了误差的增大。

因此,在最优的假设情况下,文本分类器应该尽可能地往最优分类器上的参数靠近。

此时,最优情况是 ,其对于输入,其输出为

计算可得误差

由该式子可以看出,即使文本分类器再怎么往最优分类器上靠,如果它的秩本身就小于最优分类器的秩,那么这个误差就无法被抹平。

也就是说,低秩的最多只能把最大的个奇异值带来的误差抹掉,只留下最小的个奇异值带来的误差。(当然也可以把小的奇异值带来的误差抹掉,但那就不是误差最小的情况了)

④非对角矩阵的情况

前文给出了为对角矩阵的情况,这里给出非对角矩阵时的证明。

步骤1:利用Eckart-Young-Mirsky定理

该定理指出:对于任意矩阵(奇异值),其最佳秩k近似 为保留前k个奇异值得到的矩阵,且:

步骤2:应用到我们的情况

步骤3: 是一个秩为 的矩阵

由于**** 的秩最多为 ,它属于被最小化的集合:

因此:

证毕。

⑤为什么 T 要在 W 的空间上投影?

答案是:为了在同一个基准上衡量文本分类器和图像分类器的能力差距。

投影的数学意义:

原文将文本特征矩阵分解:

  • :文本特征中能被图像特征解释的部分

  • :文本特征中图像无法表达的部分(对图像分类无用)

由于 与所有图像特征正交(),它对图像分类没有任何贡献,所以可以忽略。

原本处于不同空间,只有的空间投影了才能和相乘,才能分类图像。

2.交叉熵损失会扩大模态差异?

第一次看的时候,就感觉交叉熵损失不应该是缩小模态差异吗,怎么会是扩大?

理论上来讲,交叉熵损失会让正样本对之间的余弦相似度对齐到1,负样本对之间的余弦相似度对齐到-1,乍一眼看起来,觉得交叉熵损失就应该会缩小模态差异。

但是事实上,因为正样本对的数量远小于负样本对(比如狗的图片和狗的文本是一个正样本对,但是狗的图片和其他所有非狗的文本都能构成负样本对),所以优化过程主要由负样本对主导,导致模型倾向于拉远所有不匹配的图文对,从而扩大模态差异。

因此,交叉熵损失实际上会扩大模态差异。

相关推荐
m0_650108249 小时前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
m0_6501082417 小时前
PaLM:Pathways 驱动的大规模语言模型 scaling 实践
论文阅读·人工智能·palm·谷歌大模型·大规模语言模型·全面评估与行为分析·scaling效应
小殊小殊19 小时前
【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架
论文阅读·人工智能·深度学习
有点不太正常19 小时前
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
论文阅读·大模型·agent安全
小殊小殊1 天前
【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏
论文阅读·人工智能·深度学习
SatoshiGogo2 天前
AIGC 论文笔记
论文阅读·aigc
walnut_oyb3 天前
arXiv|SARLANG-1M:用于 SAR 图像理解的视觉-语言建模基准
论文阅读·人工智能·机器学习·计算机视觉·语言模型·自然语言处理
m0_650108243 天前
Gemini 2.5:重塑多模态 AI 边界的全面解读
论文阅读·人工智能·多模态大模型·gemini 2.5·跨模态融合
钟屿3 天前
Back to Basics: Let Denoising Generative Models Denoise 论文阅读学习
论文阅读·人工智能·笔记·学习·计算机视觉
张较瘦_3 天前
[论文阅读] AI + 数据库 | 拆解智能数据库:交互、管理、内核三层革新,AI 如何重塑数据处理
数据库·论文阅读·人工智能