CLIP论文提炼与代码实战

今天和大家分享一篇多模态的经典论文，大名鼎鼎的CLIP：Learning Transferable Visual Models From Natural Language Supervision [pdf]

文章目录

一、论文提炼
二、论文疑问
三、代码演示CodeDemo

一、论文提炼

Source（来源）: ICML2021
Summary: （文献方向归纳）多模态大模型
Motivate ：消除多模态之间的障碍，无监督和零样本学习，跨模态的通用型
Method： 论文提出了一种通过对比学习 的方式，将图像和文本嵌入到共同的向量空间中，从而实现跨模态的任务，如图像分类、文本生成等，且不依赖于特定的数据集标签。
数据格式 ：从互联网上收集的4亿个文本图像对。
训练方式: 使用文本编码器和图像编码器分别编码文本和图像对，文本编码器使用Transformer或者bert ，图像编码器使用Vit或者Resnet 。假设一个Batch里面有N个图像文本对，那么编码之后一共可以产生个N2个正负样本对，其中正样本有N 个，负样本有N2-N 个。Clip的训练目标就是让正负样本之间的差距变大，采用的方式是对比学习的方式。

对比学习 ：CLIP 将图像和文本嵌入到一个共享的向量空间中，使得对应的图像和文本在这个空间中的向量表示尽可能相似，而不对应的图像和文本尽可能远离。 CLIP使用了对比损失，具体来说就是InfoNCE损失，对比损失的形式是：

其中，I是图像Image嵌入，T是文本Text的文本嵌入，Sim(I,T)是图像和文本之间的相似度，t是温度参数（通常设置为一个较小的值（如 0.07），用于平衡正负样本之间的相对重要性），N是训练批次的样本数量。

二、论文疑问

Clip不是用的文本图片对进行学习的吗？这不是一种有监督训练吗？

虽然 CLIP 使用图像和文本对来进行训练，这些图像-文本对可以被视为"标签"，但它与传统监督学习中的标签有所不同。CLIP 的"标签"是通过图像和文本的自然配对关系生成的，而不是人工标注的类别标签。CLIP 的训练方法侧重于通过对比学习来优化图像和文本的相似度，而不是依赖于人工预先定义的类别标签。因此，它被称为无需传统标签数据的模型，并且在处理未见过的类别时也能表现出色（零样本学习）。
Clip是怎么做到跨模态对齐的？
- 共享嵌入空间：CLIP 将图像和文本映射到同一个嵌入空间中，这意味着两种模态的表示可以直接比较和计算相似度。这种做法使得 CLIP 不依赖于传统的手工设计的标签或者类别。
- 自然语言描述：CLIP 的训练数据是从互联网上的大量图像和其自动生成的文本描述（如标题、说明等）中获得的。这些描述不需要人工标注，因此 CLIP 能够在没有显式标签的情况下通过图像-文本对学习到跨模态的关系。
- 零样本学习能力：通过对比学习，CLIP 学会了将图像和文本映射到共享的嵌入空间中，因此可以通过文本描述直接查询图像，即使这些图像没有出现在训练集中。这样，CLIP 实现了跨模态的零样本学习，即可以处理在训练阶段从未见过的类别。

三、代码演示CodeDemo

首先在虚拟环境中安装需要的依赖库：

python 复制代码

pip install ftfy regex tqdm
pip install git+https://github.com/openai/CLIP.git

测试代码：

python 复制代码

import torch
import clip
from PIL import Image
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
image = preprocess(Image.open("image.png")).unsqueeze(0).to(device)
label = ["一只老虎", "一只狗", "一只猫","一只拖鞋","一幅画","一件衣服"]
text = clip.tokenize(label).to(device)

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()
# 得到标签
print("Label probabilities:", probs)
print("Label:", label[probs.argmax()])

python 复制代码

Label probabilities: [[0.1523  0.15    0.02448 0.11145 0.0046  0.557  ]]
Label: 一件衣服