CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection

但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear

参考:

https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection

相关推荐
mit6.8248 分钟前
[VoiceRAG] Azure | 使用`azd`部署应用 | Dockerfile
python
小虎AI生活9 分钟前
CodeBuddy实战:小虎个人博客网站,AI编程就是升级打boss的过程
人工智能·ai编程·codebuddy
砥锋10 分钟前
计算机人的雷达入门:零基础用Python+Cinrad可视化雷达数据【实战指南】
python
txwtech11 分钟前
第5篇 如何计算两个坐标点距离--opencv图像中的两个点
人工智能·算法·机器学习
万涂幻象17 分钟前
一篇搞懂:飞书多维表格、n8n、Dify 等自动化工作流里的 Webhook 到底是个啥
人工智能
用户51914958484524 分钟前
使用eBPF技术保护FastAPI安全
人工智能·aigc
马腾化云东26 分钟前
FastJsMcp:几行代码开发一个mcp工具
人工智能·ai编程·mcp
FreeCode27 分钟前
构建AI智能体之路:高效的上下文工程
人工智能·agent
用户51914958484534 分钟前
最简单的SQL注入测试方法:Break & Repair技术详解
人工智能·aigc
你们瞎搞36 分钟前
arcgis矢量数据转为标准geojson格式
python·arcgis·json·地理空间数据