CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
hweiyu002 分钟前
数据挖掘 miRNA调节网络的构建(视频教程)
人工智能·数据挖掘
wshlp12345615 分钟前
deepseek api 灵活使用
python
飞哥数智坊17 分钟前
AI Coding 新手常见的3大误区
人工智能·ai编程
3Bronze1Pyramid17 分钟前
深度学习参数优化
人工智能·深度学习
笨笨没好名字22 分钟前
自然语言处理(NLP)之文本预处理:词元化——以《时间机器》文本数据集为例
人工智能·自然语言处理
skywalk816323 分钟前
简单、高效且低成本的预训练、微调与服务,惠及大众基于 Ray 架构设计的覆盖大语言模型(LLM)完整生命周期的解决方案byzer-llm
人工智能·语言模型·自然语言处理
urkay-29 分钟前
Android Cursor AI代码编辑器
android·人工智能·编辑器·iphone·androidx
明月说数据41 分钟前
Smartbi 10 月版本亮点:AIChat对话能力提升,国产化部署更安全
ai·数据分析·版本更新
AI视觉网奇43 分钟前
coco json 分类标注工具源代码
开发语言·python
政安晨1 小时前
政安晨【零基础玩转开源AI项目】video-subtitle-remover 去除视频字幕水印(图像也可以)(基于Ubuntu Linux系统)
人工智能·语言模型·自然语言处理·图片去水印·视频去水印·开源ai·video-xx-remove