EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

文章目录


前言

最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。


一、摘要

对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强,使EVA-CLIP实现更高性能,与先前相同参数下的CLIP模型相比,且更少训练成本。明显的,我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究,我们向社区发布了完整的EVA-CLIP代码。

二、引言

CLIP模型是一个很强的视觉语言基准模型,通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移,能增强木多模态和单模态视觉任务,列如AI生成应用包含[41,20,32,45].尽管CLIP有很重要意义,但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。

在这篇文章,我们提出EVA-CLIP模型,一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术,能减少训练成本,使其稳定训练和提高泛化性能,包含CLIP预训练初始化EVA[20,19]方法,LAMB[52]优化器方法,随机drop 输入tokens[33]方法,和加速trick叫flash attention[15]方法。在这些技术下,我们能极大稳定CLIP模型训练,减少计算成本和改善性能。之后描述就是摘要实验结果。

三、贡献

集成众多论文一系列trick,减少CLIP模型训练成本、训练稳定、提供性能与泛化。

四、模型方法

该模型是对CLIP进行一系列trick优化其训练方法,至于众多优化方法来源不同文章方法,我将其罗列如下,至于更深入理解可自习根据论文查看。

CLIP初始化借鉴:

Exploring the limits of masked visual representation learning at scale

A visual representation for neon genesis

优化器借鉴:

Large batch optimization for deep learning: Training bert in 76 minutes

drop token借鉴:

Scaling language-image pre-training via masking

加速flash attention借鉴:

Flashattention: Fast and memory-efficient exact attention with io-awareness

五、论文链接

该论文有部分注释,下载链接如下:

链接:https://pan.baidu.com/s/1osN_qmRyrrMdQQ0S9GWVRA

提取码:clip


总结

一系列模型改善,使用其它模型系列方法改善CLIP训练的论文。

相关推荐
AI视觉网奇4 分钟前
Detected at node ‘truediv‘ defined at (most recent call last): Node: ‘truediv‘
人工智能·python·tensorflow
西西弗Sisyphus7 分钟前
开放世界目标检测 Grounding DINO
人工智能·目标检测·计算机视觉·大模型
抓哇能手25 分钟前
数据库系统概论
数据库·人工智能·sql·mysql·计算机
火云洞红孩儿31 分钟前
基于AI IDE 打造快速化的游戏LUA脚本的生成系统
c++·人工智能·inscode·游戏引擎·lua·游戏开发·脚本系统
风清扬雨1 小时前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉
HuggingFace1 小时前
自动评估基准 | 设计你的自动评估任务
人工智能·自动评估
GISer_Jing1 小时前
神经网络初学总结(一)
人工智能·深度学习·神经网络
szxinmai主板定制专家1 小时前
【国产NI替代】基于A7 FPGA+AI的16振动(16bits)终端PCIE数据采集板卡
人工智能·fpga开发
数据分析能量站2 小时前
神经网络-AlexNet
人工智能·深度学习·神经网络