CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
sunywz7 小时前
【JVM】(2)java类加载机制
java·jvm·python
电商API_180079052477 小时前
B站视频列表与详情数据API调用完全指南
大数据·人工智能·爬虫·数据分析
Silence_Jy7 小时前
GPU架构
python
kwg1267 小时前
本地搭建 OPC UA MCP 服务
python·agent·mcp
belldeep7 小时前
python:mnist 数据集下载,parse
python·numpy·mnist
jxm_csdn7 小时前
递归工程工厂:Claude Code + Git Worktrees + Tilix/Tmux 的“AI分身”编码团队
人工智能·git
雨稚7 小时前
Aider部署使用,Claude Code平替
人工智能·cli
行业探路者7 小时前
二维码制作工具使用指南:如何利用电脑摄像头轻松扫描和生成图片二维码
大数据·人工智能·学习·产品运营·软件工程
汽车仪器仪表相关领域8 小时前
半自动精准检测,降本增效之选——NHD-1050半自动远、近光检测仪项目实战分享
服务器·人工智能·功能测试·安全·可用性测试