CLIP改进

主要有以下两个工作:

【1】SigLIP:Sigmoid Loss for Language Image Pre-Training

【2】DFN:Data Filtering Networks

分别从算法和数据上进行优化

1.SigLIP:Sigmoid Loss for Language Image Pre-Training

SigLIP的核心方就是对CLIP的训练Loss进行了优化。

CLIP Loss

原本的CLIP采用的是传统的基于softmax的对比学习损失函数:

可以看到:

1,对于每一对正样本,即分子的,需要进行基于所有正负样本的softmax归一化,即分母

  1. 由于softmax的不对称性,上述归一化操作对于image-to-text和text-to-image要单独进行。

这意味着在DDP训练下,每个GPU都需要获取来自所有其他GPU的图像特征x和文本特征y,这涉及到两次all_gather操作。并且每个GPU都要维护一个完整的BXB的矩阵,这从通讯复杂度和存储复杂度角度看,都是一笔不小的开销。

SigLIP Loss

为此,SigLIP提出了一种更加简单的替代方案,基于Sigmoid损失单独处理每一个image-text pair:

SigLIP 高效分块实现

鉴于SigLIP的特性,他们还设计了一种DDP训练下的高效实现,假设一共有D个GPU,每个GPU的局部批次大小为,对上述Loss进行拆分改写:

以D=3, B=12, b=4为例,SigLIP Loss的计算过程如下:

可以发现,由于每一对 都是损失函数中的独立项 ,因此可以计算正例以及b-1个负例的损失,然后跨设备和相邻的GPU置换负例表示(仅需文本 ),并计算新的b-1个负例对应的损失,并逐渐将该损失进行累加就会得到该GPU对应的完整局部损失,然后把所有GPU的局部损失相加便可以得到完整的全局损失

该实现下,每个GPU仅需要和相邻GPU进行D-1次文本特征的交换,并且仅需维护一个d x d的矩阵即可,大大降低了通讯和存储开销

一些结论:

  • Sigmoid-based Loss对比Softmax-based Loss在批次大小不超过32k时具有明显优势

  • 批次大小超过32k之后继续提升批次大小收益提升并不明显

  • 过大的批次大小(307k)对于两个损失都有害(因为总训练步数的降低)

2.DFN:Data Filtering Networks

同样也是论文标题言简意赅地体现了核心工作:如何训练一个好的数据过滤网络(DFN),从而从原始数据池中过滤出高质量数据用以训练一个好的CLIP。这个没有太多好说的,简单讲一下吧。

使用CLIP作为DFN是一个常用方法,例如LAION就是利用OpenAI CLIP从 Common Crawl上过滤出的大规模image-text pair数据集。论文对DFN的过滤性能 进行了定义:用DFN从原始数据池中过滤出一个诱导数据集 (induced dataset),用该诱导数据集训练出的诱导模型(induced model)在标准评估集(例如ImageNet)上的性能,即为该模型的过滤性能,下图是DFN的训练和使用流程:

论文发现CLIP的性能(ImageNet zero-shot指标)和其过滤性能并不相关。基于此,他们进行了一系列关于训练一个好的DFN的实验,一些主要结论:

  • CLIP模型作为DFN比其他模型(二分类、MAE)更好且更灵活

  • 高质量的训练数据非常关键(使用了350M人工验证的image-text pair数据)

  • 在目标数据集上finetune DFN可以显著提升过滤性能

  • 仅依赖于少量开源数据(30M)也可以复现OpenAI CLIP(400M)作为DFN的过滤性能

相关推荐
板面华仔6 分钟前
机器学习入门(三)——决策树(Decision Tree)
人工智能·决策树·机器学习
GAOJ_K19 分钟前
滚珠花键的无预压、间隙调整与过盈配合“场景适配型”
人工智能·科技·机器人·自动化·制造
ai_xiaogui23 分钟前
【开源探索】Panelai:重新定义AI服务器管理面板,助力团队私有化算力部署与模型运维
人工智能·开源·私有化部署·docker容器化·panelai·ai服务器管理面板·comfyui集群管理
源于花海29 分钟前
迁移学习的前沿知识(AI与人类经验结合、传递式、终身、在线、强化、可解释性等)
人工智能·机器学习·迁移学习·迁移学习前沿
机 _ 长31 分钟前
YOLO26 改进 | 基于特征蒸馏 | 知识蒸馏 (Response & Feature-based Distillation)
python·深度学习·机器学习
king of code porter1 小时前
百宝箱企业版搭建智能体应用-平台概述
人工智能·大模型·智能体
愚公搬代码1 小时前
【愚公系列】《AI短视频创作一本通》004-AI短视频的准备工作(创作AI短视频的基本流程)
人工智能·音视频
物联网软硬件开发-轨物科技1 小时前
【轨物洞见】告别“被动维修”!预测性运维如何重塑老旧电站的资产价值?
运维·人工智能
电商API_180079052471 小时前
第三方淘宝商品详情 API 全维度调用指南:从技术对接到生产落地
java·大数据·前端·数据库·人工智能·网络爬虫
梁辰兴1 小时前
百亿美元赌注变数,AI军备竞赛迎来转折点?
人工智能·ai·大模型·openai·英伟达·梁辰兴·ai军备竞赛