CILP模型讲解

原论文链接:https://arxiv.org/abs/2103.00020

原论文的框架图展示了分为三大阶段:


(1)Contrastive Pre-training:对比预训练

这一步是 CLIP 的核心,目的是学习图像和文本的对齐特征空间

  1. 输入 :大量成对的「图像-文本描述」(例如图中的狗狗照片 + 文字描述 "Pepper the aussie pup")。
  2. 双编码器
    • Image Encoder(绿色) :把图像映射成向量 I 1 , I 2 , . . . , I N I_1, I_2, ..., I_N I1,I2,...,IN
    • Text Encoder(紫色) :把文本映射成向量 T 1 , T 2 , . . . , T N T_1, T_2, ..., T_N T1,T2,...,TN
  3. 对比学习目标
    计算所有图像向量和文本向量的余弦相似度矩阵 (图中的格子矩阵),训练目标是让匹配的图文对(对角线蓝色格子)相似度最大化 ,不匹配的对相似度最小化。
    这一步让模型学会了:"狗的图像"和"描述狗的文字"在特征空间中是离得最近的。

对角线格子 对应的是完全匹配的「图像-文本对」

  • I 1 ⋅ T 1 I_1 \cdot T_1 I1⋅T1:第1张图像和它自己的描述文本的相似度
  • I 2 ⋅ T 2 I_2 \cdot T_2 I2⋅T2:第2张图像和它自己的描述文本的相似度
  • ...
  • I N ⋅ T N I_N \cdot T_N IN⋅TN:第N张图像和它自己的描述文本的相似度

这些对角线的蓝色格子,就是我们要最大化的目标------让图像和它自己的描述文本在特征空间里尽可能接近。


(2)Create dataset classifier from label text:用标签文本生成分类器

预训练完成后,模型学会了图文对齐,我们就可以用它做分类任务了。

  1. 输入 :数据集的类别标签(比如 planecardogbird)。
  2. 模板化文本 :把标签套入固定模板,比如 A photo of a {object}.,得到描述文本:A photo of a plane.A photo of a dog.
  3. 文本编码 :用训练好的 Text Encoder ,把这些模板文本编码成向量 T 1 , T 2 , . . . , T N T_1, T_2, ..., T_N T1,T2,...,TN。
    这些向量,就构成了零样本分类的"类别原型"。

(3)Use for zero-shot prediction:零样本预测

这一步就是用 CLIP 做无训练分类。

  1. 输入:一张待分类的图像。
  2. 图像编码 :用 Image Encoder 把图像映射成向量 I 1 I_1 I1。
  3. 相似度匹配 :计算 I 1 I_1 I1 与上一步生成的所有文本向量 T 1 . . . T N T_1...T_N T1...TN 的余弦相似度。
  4. 输出结果 :相似度最高的文本,就是模型的预测结果。
    比如图中 I 1 ⋅ T 3 I_1 \cdot T_3 I1⋅T3 相似度最高,对应文本是 A photo of a dog.,模型就判定这张图片是"狗"。

总结

CLIP 先通过对比学习,把图像和文本都"翻译"到同一个特征空间;再通过文本模板,把分类任务变成"找最像的文本描述",从而实现零样本分类。

相关推荐
2501_934440231 分钟前
简申的服务哲学中,“专业”从来不是冰冷的技术名词,而是一种设身处地的责任担当
人工智能
慧一居士6 分钟前
OpenAI API 协议、 Chat Completions API、Responses API 协议 对比和联系,适用场景以及还有哪些其他协议详解
人工智能
XGeFei7 分钟前
python中子线程与主线程的关系
开发语言·python
Chase_______10 分钟前
【Java杂项】final 关键字详解:变量、方法、类限制与引用可变性
java·开发语言·python
TAOCARTS00113 分钟前
反向海淘旺季运营技巧,借助独立站快速拉升店铺单量
大数据·人工智能
lqqjuly18 分钟前
知识蒸馏:理论、算法与可运行实现
人工智能·深度学习·算法
小丶舟20 分钟前
6GB显卡跑Hermes Agent!开源AI自学习编程Agent实测
人工智能·学习·开源
我材不敲代码21 分钟前
Python venv 虚拟环境从入门到精通 + uv 高性能替代工具实战指南
开发语言·python·uv
haina201922 分钟前
深圳市人工智能产业协会赴京考察海纳AI,共谋AI人才测评新生态
人工智能·ai面试·ai招聘
冷de猫23 分钟前
从个人中转站到企业级 AI 网关:Aegisy 实践背后的基础设施演进逻辑
人工智能