EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

文章目录


前言

最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。


一、摘要

对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强,使EVA-CLIP实现更高性能,与先前相同参数下的CLIP模型相比,且更少训练成本。明显的,我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究,我们向社区发布了完整的EVA-CLIP代码。

二、引言

CLIP模型是一个很强的视觉语言基准模型,通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移,能增强木多模态和单模态视觉任务,列如AI生成应用包含41,20,32,45.尽管CLIP有很重要意义,但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。

在这篇文章,我们提出EVA-CLIP模型,一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术,能减少训练成本,使其稳定训练和提高泛化性能,包含CLIP预训练初始化EVA20,19方法,LAMB52优化器方法,随机drop 输入tokens33方法,和加速trick叫flash attention15方法。在这些技术下,我们能极大稳定CLIP模型训练,减少计算成本和改善性能。之后描述就是摘要实验结果。

三、贡献

集成众多论文一系列trick,减少CLIP模型训练成本、训练稳定、提供性能与泛化。

四、模型方法

该模型是对CLIP进行一系列trick优化其训练方法,至于众多优化方法来源不同文章方法,我将其罗列如下,至于更深入理解可自习根据论文查看。

CLIP初始化借鉴:

Exploring the limits of masked visual representation learning at scale

A visual representation for neon genesis

优化器借鉴:

Large batch optimization for deep learning: Training bert in 76 minutes

drop token借鉴:

Scaling language-image pre-training via masking

加速flash attention借鉴:

Flashattention: Fast and memory-efficient exact attention with io-awareness

五、论文链接

该论文有部分注释,下载链接如下:

链接:https://pan.baidu.com/s/1osN_qmRyrrMdQQ0S9GWVRA

提取码:clip


总结

一系列模型改善,使用其它模型系列方法改善CLIP训练的论文。

相关推荐
To_OC9 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
冬奇Lab12 小时前
每日一个开源项目(第139篇):Voicebox - 本地运行的开源 ElevenLabs 替代品
人工智能·开源·资讯
冬奇Lab12 小时前
Skill 系列(03):Skill 设计范式——5 个模式让输出从混沌到可预测
人工智能·开源·agent
IT_陈寒14 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
大模型真好玩15 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两16 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
LaiYoung_16 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT18 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好18 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端