CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
计算机科研之友(Friend)4 分钟前
海外招聘丨卡尔斯塔德大学—互联网隐私和安全副高级讲师
图像处理·人工智能·安全·计算机视觉·数据挖掘·机器人
EasyNVR8 分钟前
视频转码对画质有影响吗?视频融合平台EasyCVR支持哪些转码格式?
人工智能·音视频
Zerol_Yan12 分钟前
sklearn-逻辑回归-制作评分卡
人工智能·逻辑回归·sklearn
TMT星球20 分钟前
三线结构光避障远近有度,石头自清洁扫拖机器人G30上市
人工智能·机器人
Jamence25 分钟前
超大规模分类(三):KNN softmax
人工智能·深度学习·机器学习·分类
Eiceblue35 分钟前
Python在Excel工作表中创建数据透视表
开发语言·python·visualstudio·excel
微学AI42 分钟前
GPU算力平台|在GPU算力平台部署LLama3大模型的详细教程
服务器·人工智能·gpu算力
宋138102797201 小时前
Xsens惯性动捕技术优化人型机器人AI训练流程
人工智能·机器人
Spcarrydoinb1 小时前
python学习笔记—17—数据容器之字符串
笔记·python·学习
oufoc1 小时前
第R4周:LSTM-火灾温度预测
人工智能·rnn·lstm