CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
曲幽20 小时前
FastAPI 身份验证总踩坑?这份 FastAPI Users “避坑指南”请收好
python·fastapi·web·jwt·oauth2·user·authentication
WPF工业上位机20 小时前
YXGK.FakeVM深度学习之5语义分割
人工智能·深度学习
落叶无情20 小时前
ICEF认知操作系统:四类约束全维度全覆盖,是全谱系系统化约束体系
人工智能
碳基硅坊20 小时前
Gemma 4 12B 让AI创作更私密更高效
人工智能·gemma-4-12b
weixin_4684668520 小时前
大模型新手入门与实战指南
人工智能·深度学习·ai·大模型
菩提小狗20 小时前
每日极客日报 · 2026年06月06日
ai·开源·极客日报·it热点·技术资讯
装不满的克莱因瓶21 小时前
掌握 RNN 与 LSTM 模型结构
人工智能·python·rnn·深度学习·神经网络·ai·lstm
jeffer_liu21 小时前
Spring AI 生产级实战:裁判员
java·人工智能·后端·spring·大模型
何以解忧,唯有..21 小时前
Python包管理工具pip:从入门到精通
开发语言·python·pip
weixin_4462608521 小时前
Agent 会自行回避吗?测量 LLM 智能体合规性的带内访问拒绝信号
人工智能