【无标题】

《Learning Transferable Visual Models From Natural Language Supervision》论文核心总结(含完整数学原理)

这篇论文是OpenAI于2021年发表的CLIP(Contrastive Language-Image Pre-training) 开山之作,彻底颠覆了传统计算机视觉的闭集监督范式,奠定了视觉-语言多模态预训练的核心技术基础。本文将在核心框架的基础上,完整拆解模型的底层数学原理、公式推导、理论支撑与物理意义。


一、核心研究问题

传统计算机视觉模型依赖人工标注的固定闭集类别标签做监督训练,存在三大核心痛点:

  1. 泛化能力严重受限,无法识别训练集外的未见类别,新任务必须重新标注数据、微调模型;
  2. 模型仅学到闭集内的分类边界,而非通用的视觉语义理解能力,分布外场景性能急剧衰减;
  3. 高质量标注成本极高,难以适配海量、开放的真实世界视觉场景。

论文的核心命题是:能否训练出一个无需针对新任务重新训练/微调,就能直接适配下游视觉任务、识别未见类别的通用可迁移视觉模型?


二、核心框架与前置数学基础

2.1 核心思路

自然语言监督替代传统的人工类别标签监督,通过大规模图文对比学习,构建图像与文本的共享语义单位超球面空间,让模型学会"图像↔文本"的语义对齐关系,从而将闭集分类任务转化为开放域的图文相似度匹配任务,实现视觉表征的跨任务、跨域零样本迁移。

2.2 双塔编码器与特征空间的数学定义

CLIP采用对称双塔架构,所有数学设计的核心前提是将图像与文本映射到同一个维度为D的单位超球面特征空间,具体定义如下:

  1. 图像编码器 :输入图像IiI_iIi,经ResNet/ViT骨干网络提取特征后,通过线性投影层得到D维特征向量,最终执行L2归一化

    vi=ImageEncoder(Ii),∥vi∥2=1v_i = \text{ImageEncoder}(I_i), \quad \|v_i\|_2 = 1vi=ImageEncoder(Ii),∥vi∥2=1

    归一化后,所有图像特征被约束在D维空间的单位超球面上,消除特征模长对相似度计算的干扰,仅保留语义方向信息。

  2. 文本编码器 :输入文本描述TjT_jTj,经Transformer架构提取特征后,取EOS位置的输出通过线性投影层得到D维特征向量,同样执行L2归一化:

    tj=TextEncoder(Tj),∥tj∥2=1t_j = \text{TextEncoder}(T_j), \quad \|t_j\|_2 = 1tj=TextEncoder(Tj),∥tj∥2=1

    文本特征与图像特征维度完全一致,且同处于单位超球面空间,为跨模态相似度计算提供了统一的数学基础。

2.3 相似度计算的数学本质

CLIP的核心匹配度量是缩放余弦相似度,其完整数学推导与物理意义如下:

  1. 余弦相似度的标准定义为两个向量夹角的余弦值,反映向量的语义方向相似性:

    cos⁡(vi,tj)=viTtj∥vi∥2⋅∥tj∥2\cos(v_i, t_j) = \frac{v_i^T t_j}{\|v_i\|_2 \cdot \|t_j\|_2}cos(vi,tj)=∥vi∥2⋅∥tj∥2viTtj

  2. 由于viv_ivi和tjt_jtj均已做L2归一化,∥vi∥2=∥tj∥2=1\|v_i\|_2 = \|t_j\|_2 = 1∥vi∥2=∥tj∥2=1,因此余弦相似度等价于向量内积:

    cos⁡(vi,tj)=viTtj\cos(v_i, t_j) = v_i^T t_jcos(vi,tj)=viTtj

  3. 引入可学习的温度参数τ>0\tau>0τ>0对相似度进行缩放,得到最终的匹配logit:

    sij=viTtjτs_{ij} = \frac{v_i^T t_j}{\tau}sij=τviTtj

关键数学结论
  • 归一化后的内积取值范围严格为[−1,1][-1, 1][−1,1],对应两个向量夹角从180∘180^\circ180∘(完全相反)到0∘0^\circ0∘(完全一致);
  • 温度参数τ\tauτ是控制模型训练的核心超参数,其数学作用将在后续章节完整拆解。

三、核心损失函数的完整数学原理

CLIP的训练目标是双向对称的InfoNCE损失(Information Noise Contrastive Estimation),其本质是通过对比学习最大化图像与文本之间的互信息,实现跨模态语义对齐。以下是从似然函数到最终损失的完整推导过程。

3.1 训练样本的数学定义

训练时,一个batch包含NNN个一一对应的图文对{(I1,T1),(I2,T2),...,(IN,TN)}\{(I_1, T_1), (I_2, T_2), ..., (I_N, T_N)\}{(I1,T1),(I2,T2),...,(IN,TN)},其中:

  • 正样本对:(Ii,Ti)(I_i, T_i)(Ii,Ti),即图像与对应的匹配文本,共NNN个;
  • 负样本对:(Ii,Tj) (j≠i)(I_i, T_j) \ (j \neq i)(Ii,Tj) (j=i)和(Ti,Ij) (j≠i)(T_i, I_j) \ (j \neq i)(Ti,Ij) (j=i),即batch内所有不匹配的图文组合,单方向共N(N−1)N(N-1)N(N−1)个。

3.2 单路InfoNCE损失的推导

InfoNCE损失的核心是最大化正样本对的匹配概率,最小化负样本对的匹配概率,本质是负对数似然损失(交叉熵损失)。

图像到文本(I→TI \rightarrow TI→T)方向

给定图像IiI_iIi,我们建模其匹配到正确文本TiT_iTi的条件概率,采用softmax函数对batch内所有文本的相似度进行归一化:

P(Ti∣Ii)=exp⁡(sii)∑j=1Nexp⁡(sij)P(T_i | I_i) = \frac{\exp(s_{ii})}{\sum_{j=1}^N \exp(s_{ij})}P(Ti∣Ii)=∑j=1Nexp(sij)exp(sii)

该公式的物理意义是:在batch内的NNN个候选文本中,图像IiI_iIi对应正确文本TiT_iTi的后验概率。

我们的优化目标是最大化所有样本的对数似然,等价于最小化负对数似然,因此得到图像到文本的交叉熵损失:

Li2t=−1N∑i=1Nlog⁡(exp⁡(sii)∑j=1Nexp⁡(sij))\mathcal{L}{i2t} = -\frac{1}{N} \sum{i=1}^N \log\left( \frac{\exp(s_{ii})}{\sum_{j=1}^N \exp(s_{ij})} \right)Li2t=−N1i=1∑Nlog(∑j=1Nexp(sij)exp(sii))

文本到图像(T→IT \rightarrow IT→I)方向

与上述推导完全对称,给定文本TiT_iTi,其匹配到正确图像IiI_iIi的条件概率为:

P(Ii∣Ti)=exp⁡(sii)∑j=1Nexp⁡(sji)P(I_i | T_i) = \frac{\exp(s_{ii})}{\sum_{j=1}^N \exp(s_{ji})}P(Ii∣Ti)=∑j=1Nexp(sji)exp(sii)

对应的负对数似然损失为:

Lt2i=−1N∑i=1Nlog⁡(exp⁡(sii)∑j=1Nexp⁡(sji))\mathcal{L}{t2i} = -\frac{1}{N} \sum{i=1}^N \log\left( \frac{\exp(s_{ii})}{\sum_{j=1}^N \exp(s_{ji})} \right)Lt2i=−N1i=1∑Nlog(∑j=1Nexp(sji)exp(sii))

3.3 总损失函数

CLIP采用双向对称损失,最终总损失为两个单路损失的平均值:

L=12(Li2t+Lt2i)\mathcal{L} = \frac{1}{2} \left( \mathcal{L}{i2t} + \mathcal{L}{t2i} \right)L=21(Li2t+Lt2i)

双向损失的数学合理性
  • 单路损失仅约束了单模态的对齐,易出现模态坍缩(如所有图像特征映射到同一个文本特征);
  • 双向对称损失同时约束了图像→文本和文本→图像的双向对齐,从数学上保证了两个模态特征空间的双向可逆映射,避免模态坍缩;
  • 从信息论视角,双向InfoNCE损失的本质是最大化图像与文本之间的互信息I(I;T)I(I;T)I(I;T)的下界 ,负样本数量越多,互信息下界越紧致,模型学到的跨模态关联越充分。这也是CLIP采用超大batch size(32768)的核心数学原因------batch越大,单批次负样本数量N−1N-1N−1越多,互信息下界越紧,表征质量越高。

3.4 损失函数的梯度分析(核心优化机制)

损失函数的梯度更新规则,直接决定了模型如何实现"拉近正样本、推远负样本",以下是核心梯度的推导与物理意义。

对图像特征viv_ivi的梯度

Li2t\mathcal{L}_{i2t}Li2t

展开简化:

Li2t=−1N∑i=1N(sii−log⁡(∑j=1Nexp⁡(sij)))\mathcal{L}{i2t} = -\frac{1}{N} \sum{i=1}^N \left( s_{ii} - \log\left( \sum_{j=1}^N \exp(s_{ij}) \right) \right)Li2t=−N1i=1∑N(sii−log(j=1∑Nexp(sij)))

代入

sij=viTtjτs_{ij} = \frac{v_i^T t_j}{\tau}sij=τviTtj

,对

viv_ivi

求偏导:

∂Li2t∂vi=1Nτ(−ti+∑j=1NP(Tj∣Ii)⋅tj)\frac{\partial \mathcal{L}{i2t}}{\partial v_i} = \frac{1}{N\tau} \left( -t_i + \sum{j=1}^N P(T_j | I_i) \cdot t_j \right)∂vi∂Li2t=Nτ1(−ti+j=1∑NP(Tj∣Ii)⋅tj)

梯度的物理意义

梯度由两部分组成:

  1. 负项−ti-t_i−ti:推动图像特征viv_ivi向正样本文本特征tit_iti靠近;

  2. 正项

    ∑j=1NP(Tj∣Ii)⋅tj\sum_{j=1}^N P(T_j | I_i) \cdot t_j∑j=1NP(Tj∣Ii)⋅tj

    :batch内所有文本特征的加权平均,权重为图像IiI_iIi匹配到对应文本的概率,推动viv_ivi远离高概率的负样本文本特征。

当模型预测完全正确时,

P(Ti∣Ii)≈1P(T_i | I_i) \approx 1P(Ti∣Ii)≈1

,加权平均项≈ti\approx t_i≈ti,梯度趋近于0,参数停止更新;当模型预测错误时,梯度会持续推动viv_ivi与正样本对齐、与负样本分离。

对文本特征tit_iti的梯度

与图像特征完全对称,推导可得:

∂Lt2i∂ti=1Nτ(−vi+∑j=1NP(Ij∣Ti)⋅vj)\frac{\partial \mathcal{L}{t2i}}{\partial t_i} = \frac{1}{N\tau} \left( -v_i + \sum{j=1}^N P(I_j | T_i) \cdot v_j \right)∂ti∂Lt2i=Nτ1(−vi+j=1∑NP(Ij∣Ti)⋅vj)

该梯度保证了文本特征向对应正样本图像特征对齐,实现双向语义空间的同步更新。

3.5 温度参数τ\tauτ的完整数学原理

温度参数τ\tauτ是CLIP训练中最关键的可学习参数,其数学作用与物理意义如下:

  1. 控制概率分布的平滑度

    • τ→0+\tau \rightarrow 0^+τ→0+

      时,

      sijs_{ij}sij

      的缩放倍数趋近于无穷大,softmax输出会收敛为one-hot分布,仅最大相似度对应的概率趋近于1,其余趋近于0,模型会过度关注难分负样本,易过拟合;

    • τ→+∞\tau \rightarrow +\inftyτ→+∞

      时,

      sijs_{ij}sij

      的缩放倍数趋近于0,softmax输出会收敛为均匀分布,所有样本的概率趋近于相等,梯度消失,模型无法学习;

    • 可学习的τ\tauτ让模型自适应调整分布平滑度,平衡训练的稳定性与拟合能力,无需人工调参。

  2. 梯度缩放的作用

    从梯度公式可以看出,τ\tauτ是梯度的缩放因子,τ\tauτ越小,梯度幅值越大,模型更新越快;τ\tauτ越大,梯度幅值越小,训练越稳定。可学习的τ\tauτ同时实现了梯度幅值的自适应调整。

  3. 取值约束

    论文中τ\tauτ初始化为0.07,且训练中约束τ≥0.01\tau \geq 0.01τ≥0.01,避免τ\tauτ过小导致梯度爆炸与训练不稳定。


四、零样本分类的数学本质与理论支撑

CLIP的核心突破是实现了无需微调的零样本分类能力,其底层完全基于预训练阶段构建的跨模态语义空间,以下是完整的数学原理。

4.1 零样本分类的数学流程

针对一个包含CCC个类别的新分类任务,零样本推理的完整数学步骤为:

  1. Prompt构造 :为每个类别kkk构造对应的文本描述TkT_kTk(如"a photo of a [class]");
  2. 文本特征编码 :将所有类别文本输入文本编码器,得到归一化的文本特征{t1,t2,...,tC}\{t_1, t_2, ..., t_C\}{t1,t2,...,tC},∥tk∥2=1\|t_k\|_2=1∥tk∥2=1;
  3. 图像特征编码 :将待分类图像III输入图像编码器,得到归一化的图像特征vvv,∥v∥2=1\|v\|_2=1∥v∥2=1;
  4. 相似度计算 :计算图像与所有类别文本的缩放余弦相似度sk=vTtkτs_k = \frac{v^T t_k}{\tau}sk=τvTtk;
  5. 概率归一化与预测 :通过softmax得到每个类别的预测概率,取概率最大的类别作为输出:
    p(y=k∣I)=exp⁡(sk)∑j=1Cexp⁡(sj)=exp⁡(vTtkτ)∑j=1Cexp⁡(vTtjτ)p(y=k | I) = \frac{\exp(s_k)}{\sum_{j=1}^C \exp(s_j)} = \frac{\exp\left( \frac{v^T t_k}{\tau} \right)}{\sum_{j=1}^C \exp\left( \frac{v^T t_j}{\tau} \right)}p(y=k∣I)=∑j=1Cexp(sj)exp(sk)=∑j=1Cexp(τvTtj)exp(τvTtk)

4.2 与传统监督分类的数学等价性

零样本分类的核心数学本质,是用文本编码器生成的类别特征,替代了传统分类模型的线性分类头权重,具体推导如下:

传统全监督分类模型的最终分类层为线性分类头,权重矩阵W∈RC×DW \in \mathbb{R}^{C \times D}W∈RC×D,其中wk∈RDw_k \in \mathbb{R}^Dwk∈RD是第kkk个类别的权重向量。输入图像特征vvv,分类logits为:
logitsk=wkTv\text{logits}_k = w_k^T vlogitsk=wkTv

最终预测概率为:
p(y=k∣I)=exp⁡(wkTv)∑j=1Cexp⁡(wjTv)p(y=k | I) = \frac{\exp(w_k^T v)}{\sum_{j=1}^C \exp(w_j^T v)}p(y=k∣I)=∑j=1Cexp(wjTv)exp(wkTv)

对比CLIP的零样本分类公式,二者数学形式完全一致:

  • 传统分类头的权重wkw_kwk,对应CLIP中文本编码器生成的类别特征tk/τt_k / \tautk/τ;
  • 传统分类头需要在任务数据集上训练得到wkw_kwk,而CLIP的tkt_ktk直接由文本prompt生成,无需任何任务相关的训练数据。

这一等价性是CLIP能无缝适配任意分类任务、实现零样本泛化的核心数学基础。

4.3 Prompt Engineering的数学原理

论文中验证,多模板Prompt集成可带来约3.5%的性能提升,其底层数学本质如下:

对于单个类别kkk,构造MMM个不同的Prompt模板(如"a photo of a {}", "a blurry photo of a {}", "a photo of a small {}"),每个模板生成一个文本特征tk,mt_{k,m}tk,m(m=1,2,...,Mm=1,2,...,Mm=1,2,...,M),最终取所有特征的平均值作为该类别的最终文本特征:
tk=1M∑m=1Mtk,mt_k = \frac{1}{M} \sum_{m=1}^M t_{k,m}tk=M1m=1∑Mtk,m

数学意义
  1. 贝叶斯模型平均:多模板集成等价于对多个独立的"文本分类器"做概率平均,降低了单个Prompt带来的预测方差,减少模型不确定性,提升泛化性能;
  2. 语义中心校准:单个Prompt仅能刻画类别语义的一个视角,多模板平均可以得到类别语义在特征空间中更精准的中心,减少单个Prompt的语义偏差;
  3. 分布鲁棒性提升:多模板覆盖了不同的图像场景(模糊、大小、光照等),让文本特征能适配更多分布外的输入图像,提升鲁棒性。

五、核心创新点与实验结论的数学解读

5.1 核心创新点的数学本质

  1. 监督范式的革新:将传统CV的one-hot离散类别标签,替换为自然语言文本描述,把闭集、有限的标签空间拓展为开放、连续的语义流形空间,让模型从"学习类别判别边界"转向"学习跨模态语义对齐"。
  2. 任务范式的重构:将传统的闭集分类任务,转化为开放域的图文相似度匹配任务,打破了不同视觉任务间的壁垒,实现了"一次预训练,全场景零样本适配"。
  3. 预训练范式的验证:首次验证了4亿规模互联网图文对+双向InfoNCE对比学习的范式,海量数据让模型学到的语义空间覆盖了足够丰富的视觉-语言概念,为泛化能力提供了数据支撑。

5.2 核心实验结论的数学解读

  1. 零样本性能里程碑 :在ImageNet上零样本准确率达到76%,持平全监督训练的ResNet-50。数学上,这证明了CLIP通过文本生成的分类权重tkt_ktk,与在128万张标注图像上训练得到的ResNet-50分类头权重wkw_kwk,具有等价的判别能力。
  2. 线性探测性能优异:在27个下游任务的线性探测中,CLIP预训练表征多数优于ImageNet监督预训练。数学上,线性探测的准确率直接衡量特征空间的线性可分性,这证明CLIP学到的语义空间中,不同视觉概念的特征具有更优的线性可分性,泛化能力更强。
  3. 分布外鲁棒性强:在分布偏移场景中性能衰减远小于传统模型。数学上,传统监督模型仅学到了训练集闭集内的分类边界,分布外输入会超出边界的适用范围;而CLIP学到的是全局语义流形,分布外输入只要在预训练覆盖的语义空间内,就能得到有效的特征表示,因此鲁棒性更强。

六、局限性的数学原因与本质洞察

6.1 模型本质洞察

CLIP的核心不是训练一个更强的分类器,而是通过图文对比学习,学习到了一个对齐视觉与语言的统一通用语义单位超球面空间。在这个空间中,图像与描述它的文本拥有相近的特征表示,模型真正学到了视觉内容对应的语义概念,而非闭集内的分类边界,这是其强大零样本泛化能力的核心来源。

6.2 局限性的底层数学原因

  1. 细粒度分类能力弱 :细粒度类别(如不同品种的狗、不同型号的汽车)的文本描述语义差异极小,对应文本特征tkt_ktk在单位超球面上的夹角非常小,相似度计算的区分度极低,模型难以实现精准分类。
  2. 空间推理能力差:CLIP的图像编码器输出的是全局图像特征,丢失了像素级的空间位置信息,无法与文本中的空间谓词("在...左边"、"在...上方"、"计数")实现精准的语义对齐,因此无法完成复杂的空间推理任务。
  3. 数据偏见问题:预训练数据来自互联网,数据中的偏见会被编码到语义空间中,导致文本特征的语义中心出现偏移,模型预测继承数据中的偏见。
  4. 罕见分布泛化能力差:对于预训练数据中极少出现的视觉-语言概念,其在语义空间中的特征分布非常稀疏,模型无法学到精准的语义中心,因此泛化性能显著下降。

七、一句话核心总结

CLIP通过双向对称InfoNCE对比学习,在4亿图文对上学到了对齐视觉与语言的单位超球面语义空间,将传统闭集分类任务转化为开放域图文相似度匹配问题,从数学上实现了视觉模型的零样本跨任务泛化,开启了多模态预训练的全新时代。

相关推荐
何如千泷3 个月前
【论文阅读】MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection
论文阅读·异常检测·clip
七夜zippoe4 个月前
多模态模型实践 - 图文跨模态检索实战教程
架构·大模型·多模态·向量检索·clip
这张生成的图像能检测吗5 个月前
(论文速读)视觉语言模型的无遗忘学习
人工智能·深度学习·计算机视觉·clip·持续学习·灾难性遗忘
这张生成的图像能检测吗5 个月前
(论文速读)Anyattack: 面向视觉语言模型的大规模自监督对抗性攻击
人工智能·语言模型·clip·视觉语言模型·对抗攻击
这张生成的图像能检测吗6 个月前
(论文速读)Prompt-Free Diffusion:告别提示工程的烦恼
人工智能·深度学习·计算机视觉·prompt·图像生成·超分辨率重建·clip
陈敬雷-充电了么-CEO兼CTO7 个月前
突破多模态极限!InstructBLIP携指令微调革新视觉语言模型,X-InstructBLIP实现跨模态推理新高度
人工智能·自然语言处理·chatgpt·blip·clip·多模态大模型·gpt-5
这张生成的图像能检测吗7 个月前
(论文速读)Logits DeConfusion-CLIP少样本学习
人工智能·计算机视觉·图像分类·clip
带电的小王10 个月前
CLIP:论文阅读 -- 视觉模型
论文阅读·clip·视觉模型
紫雾凌寒1 年前
自然语言处理|CLIP 的双编码器架构是如何优化图文关联的?
人工智能·深度学习·自然语言处理·大模型·openai·clip·多模态对齐