CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
爱喝奶茶的企鹅几秒前
Ethan独立开发产品日报 | 2025-04-24
人工智能·程序员·开源
鸿蒙布道师2 分钟前
OpenAI为何觊觎Chrome?AI时代浏览器争夺战背后的深层逻辑
前端·人工智能·chrome·深度学习·opencv·自然语言处理·chatgpt
橘猫云计算机设计4 分钟前
springboot基于hadoop的酷狗音乐爬虫大数据分析可视化系统(源码+lw+部署文档+讲解),源码可白嫖!
数据库·hadoop·spring boot·爬虫·python·数据分析·毕业设计
生信宝典5 分钟前
Nature method: 生物研究中的语言模型入门指南
人工智能·语言模型·自然语言处理
YOULANSHENGMENG10 分钟前
linux 下python 调用c++的动态库的方法
c++·python
飞哥数智坊15 分钟前
从零开始:用“扣子”打造你的专属Word审查智能体
人工智能
虹科数字化与AR20 分钟前
安宝特案例 | 物流仓储头部企业应用AR+作业流,规范日常安全点检,保障消防安全
人工智能·ar·ar眼镜·仓储物流·仓储管理
SsummerC27 分钟前
【leetcode100】零钱兑换Ⅱ
数据结构·python·算法·leetcode·动态规划
夸克App40 分钟前
实现营销投放全流程自动化 超级汇川推出信息流智能投放产品“AI智投“
运维·人工智能·自动化
Rainbond云原生43 分钟前
83k Star!n8n 让 AI 驱动的工作流自动化触手可及
运维·人工智能·自动化