CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
智算菩萨1 小时前
GPT-5.4 进阶思考模式全面解析:从推理等级到实战提示词,代码、论文、数据处理一站通
人工智能·gpt·深度学习·机器学习·语言模型·自然语言处理·chatgpt
秃头狂魔1 小时前
【HOT100】DAY2
python·算法
易知微EasyV数据可视化1 小时前
数字孪生+AI:某国家级技术科研机构:耦合仿真评估部件性能,长期运维监测承压状态
人工智能·经验分享·物联网·数字孪生·空间智能
六个点1 小时前
A2A协议入门:构建Agent之间的通信标准
人工智能
大学有意思1 小时前
广西英华国际职业学院新能源汽车技术专业2026年权威解析
人工智能·机器人
枫叶林FYL1 小时前
【自然语言处理 NLP】 大语言模型(LLM)系统工程(Large Language Model Engineering)5.1.2 ZeRO与显存优化技术
人工智能·深度学习·机器学习
Flying pigs~~1 小时前
基于huggingface库Trainer实现Bert文本分类实战
人工智能·自然语言处理·bert·文本分类·huggingface·trainer
OPHKVPS1 小时前
OpenAI推出Safety Bug Bounty计划:聚焦AI滥用与安全风险
ai
Gale2World1 小时前
专题九:【终局演进】从“单体网关”到去中心化集群:分布式数字员工(Swarm)的宏大涌现
人工智能·agent
天天代码码天天1 小时前
C# OnnxRuntime BEN2 前景分割
人工智能