CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
uesowys4 小时前
Apache Spark算法开发指导-Factorization machines classifier
人工智能·算法
人工智能AI技术4 小时前
预训练+微调:大模型的“九年义务教育+专项补课”
人工智能
shengnan_wsn4 小时前
【一】【ai基础】【大模型和智能体初识】
ai
nimadan124 小时前
**AI仿真人剧制作工具2025推荐,解锁沉浸式内容创作新范
ai
aircrushin4 小时前
中国多模态大模型历史性突破:智源Emu3自回归统一范式技术深度解读
人工智能
Lsx_4 小时前
前端视角下认识 AI Agent 和 LangChain
前端·人工智能·agent
aiguangyuan4 小时前
使用LSTM进行情感分类:原理与实现剖析
人工智能·python·nlp
小小张说故事4 小时前
BeautifulSoup:Python网页解析的优雅利器
后端·爬虫·python
Yeats_Liao4 小时前
评估体系构建:基于自动化指标与人工打分的双重验证
运维·人工智能·深度学习·算法·机器学习·自动化
luoluoal4 小时前
基于python的医疗领域用户问答的意图识别算法研究(源码+文档)
python