CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
算家计算21 小时前
ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!
人工智能·开源
Stestack21 小时前
人工智能常见分类
人工智能·分类·数据挖掘
量子位21 小时前
18岁女孩做养老机器人,上线2天卖爆了
人工智能·llm
小林学习编程21 小时前
2025年最新AI大模型原理和应用面试题
人工智能·ai·面试
数据分析能量站21 小时前
大模型为什么会有幻觉?-Why Language Models Hallucinate
人工智能
小白狮ww21 小时前
RStudio 教程:以抑郁量表测评数据分析为例
人工智能·算法·机器学习
沧海一粟青草喂马21 小时前
抖音批量上传视频怎么弄?抖音矩阵账号管理的专业指南
大数据·人工智能·矩阵
demaichuandong21 小时前
详细讲解锥齿轮丝杆升降机的加工制造工艺
人工智能·自动化·制造
ZZHow10241 天前
02OpenCV基本操作
python·opencv·计算机视觉
理智的煎蛋1 天前
CentOS/Ubuntu安装显卡驱动与GPU压力测试
大数据·人工智能·ubuntu·centos·gpu算力