文章目录
论文精度视频 :VIT论文精度,这里做简要概述
前言--CNN缺点
CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
- 局部性 :这个即使有点也是缺点,CNN认为最重要的信息是局部的,像素点距离越近重要程度越高 。这一点也是优点 ,因为以一个物体的图像来说,像素点越近,重要程度肯定越高;但是同时也是缺点,如果需要找距离较长的关系,那么就需要堆叠CNN网络,使得感受野增大。
- 平移不变性:CNN认为一个物体,无论在一张图片什么位置,他的特征是一样的。
论文内容概述
VIT效果 :在大规模数据进行预训练 ,再微调 能和最好的CNN效果一样(ResNet)。
Transformer:
- 参数量大,1000亿+参数 ,数据量也大。
- 运用到视觉难点 :
- 自注意机制时间复杂度高O(n^2)
- transformer序列长度不大,如:512
视觉运用Transformer 难点举例*,以一张单色图片,参数为:1* 224 * 224 为例。

VIT解决方法

VIT模型结构解析
