快手多模态算法工程师面试题精选:10道高频考题+答案解析这是快手一面必问题,可以说多模态方向的人人能答但想拿高分要看细节。CLIP的核心思路很简单:用对比学习拉近配对的图文对、推远不配对的。具体来说,CLIP用了双塔结构——一个图像编码器(ViT或者ResNet)和一个文本编码器(Transformer),分别把图像和文本映射到同一个向量空间。训练的时候,一个batch里有N个图文对,你会得到一个N×N的相似度矩阵,对角线是正样本,其他都是负样本。损失函数用的是InfoNCE,本质上是让正样本对的余弦相似度尽可能大,负样本对的尽可能小。