作为阅读论文的笔记方便理解与复习。
1.无法逾越的性能鸿沟
论文中出现了一个公式如下所示:
论文通过这个式子揭示了一个固有的局限性:除非文本特征空间有足够的能力来表示最优分类器,否则无法实现两者的完美对齐。
其中:
:是存在于图像空间中的理论最优分类器。
:是文本分类器在图像空间中的"影子",是它能达到的最佳近似。
:
的奇异值。
:是
的秩。
:是
的秩,
。
:是F范数 ,全称是 Frobenius范数 ,是衡量矩阵整体大小的一种方法。
下面我将对这个式子的各部分进行详细的介绍,方便理解。
①F范数
对于一个m×n的矩阵A,其Frobenius范数定义为:
简单说就是:所有元素平方和,再开平方根。
因为通常要平方更方便,所以经常看到平方F范数:
与奇异值的关系:
奇异值由大到小分布,因此可以得知公式右方的是
较小的
个奇异值的平方和。
②x、W和T到底是什么?
代表图像的特征向量。
在标准的线性分类器设定中:
-
是一个 权重矩阵 ,形状为
-
= 输入特征的维度
-
= 分类的类别数
-
-
对于一个输入特征向量
,分类过程是:
得到的分数向量
,每个元素代表对应类别的得分。
在原文的多模态语境中:
-
= 在图像特征上训练的最优分类器权重
-
= 在文本特征上训练的分类器权重(投影到图像空间后的形式)
③对角矩阵情况的举例
为了方便理解与计算,这里的例子中是一个对角矩阵,后面会对非对角矩阵的情况进行另外的分析。
设最优图像分类器:
其形状为,
为2,假设对应的
的
为1,符合原公式中
的条件。
此时,公式右边的项,即最小误差为。
这意味着:
-
类别1的权重向量:
→ 只关注第一个特征
-
类别2的权重向量:
→ 只关注第二个特征
对于输入:
也就是说,在最优分类器上,第一类的得分为,第二类的得分为
,对应前文分析中的类别一只关注第一个特征,类别二只关注第二个特征。
现在假设一个秩为1的文本分类器:
因为的秩
小于
的秩
,所以
的两个类别权重必须线性相关,即
与
线性相关,很容易看出该例子符合条件。
- 类别1的权重
→ 只关注第一个特征
- 类别2的权重
→ 也只关注第一个特征
对于输入 :
也就是说,在文本分类器上,第一类的得分为,第二类的得分为
。与最优分类器相比,第一类的得分对第一个特征
的权重不足,第二类得分错误的相关了第一个特征
,忽略了第二个特征
。
此时误差
由这个公式可以很清楚地看出来,文本分类器中,第一类得分对第一个特征的权重不足、第二类得分错误相关了第一个特征
、第二类得分忽略了第二个特征
,三者都导致了误差的增大。
因此,在最优的假设情况下,文本分类器应该尽可能地往最优分类器上的参数靠近。
此时,最优情况是 ,其对于输入
,其输出为
计算可得误差。
由该式子可以看出,即使文本分类器再怎么往最优分类器上靠,如果它的秩本身就小于最优分类器的秩
,那么这个误差就无法被抹平。
也就是说,低秩的最多只能把
最大的
个奇异值带来的误差抹掉,只留下最小的
个奇异值带来的误差。(当然也可以把小的奇异值带来的误差抹掉,但那就不是误差最小的情况了)
④非对角矩阵的情况
前文给出了为对角矩阵的情况,这里给出非对角矩阵时的证明。
步骤1:利用Eckart-Young-Mirsky定理
该定理指出:对于任意矩阵(奇异值
),其最佳秩k近似 为保留前k个奇异值得到的矩阵
,且:
步骤2:应用到我们的情况
令:
步骤3:
是一个秩为
的矩阵
由于**** 的秩最多为
,它属于被最小化的集合:
因此:
证毕。
⑤为什么 T 要在 W 的空间上投影?
答案是:为了在同一个基准上衡量文本分类器和图像分类器的能力差距。
投影的数学意义:
原文将文本特征矩阵分解:
-
:文本特征中能被图像特征解释的部分
-
:文本特征中图像无法表达的部分(对图像分类无用)
由于 与所有图像特征正交(
),它对图像分类没有任何贡献,所以可以忽略。
和
原本处于不同空间,只有
向
的空间投影了才能和
相乘,才能分类图像。
2.交叉熵损失会扩大模态差异?
第一次看的时候,就感觉交叉熵损失不应该是缩小模态差异吗,怎么会是扩大?
理论上来讲,交叉熵损失会让正样本对之间的余弦相似度对齐到1,负样本对之间的余弦相似度对齐到-1,乍一眼看起来,觉得交叉熵损失就应该会缩小模态差异。
但是事实上,因为正样本对的数量远小于负样本对(比如狗的图片和狗的文本是一个正样本对,但是狗的图片和其他所有非狗的文本都能构成负样本对),所以优化过程主要由负样本对主导,导致模型倾向于拉远所有不匹配的图文对,从而扩大模态差异。
因此,交叉熵损失实际上会扩大模态差异。