昇思25天学习打卡营第35天|计算机视觉-Vision Transformer图像分类

ViT图像分类流程

数据集的原图像被划分为多个patch（图像块）后，将二维patch（不考虑channel）转换为一维向量，再加上类别向量与位置向量作为模型输入。
模型主体的Block结构是基于Transformer的Encoder结构，但是调整了Normalization的位置，其中，最主要的结构依然是Multi-head Attention结构
模型在Blocks堆叠后接全连接层，接受类别向量的输出作为输入并用于分类。通常情况下，我们将最后的全连接层称为Head，Transformer Encoder部分为backbone。

该结构基于自注意力（Self-Attention）机制，是多个Self-Attention的并行组成。

Self-Attention：对于序列中的每一个位置，其它所有位置的表示对它的贡献是不同的，这些贡献通过一个注意力分数来衡量

加权求和：最终的输出是值向量 V 的加权求和，权重是注意力分数。

Multi-Head Attention：为了进一步提升模型的表达能力，会将Self-Attention扩展成Multi-Head Attention通过多个独立的注意力头来计算多个不同的注意力分布，然后将这些分布拼接起来，再通过一个线性变换得到最终的输出。

总结来说，多头注意力机制在保持参数总量不变的情况下，将同样的query, key和value映射到原来的高维空间（Q,K,V）的不同子空间(Q_0,K_0,V_0)中进行自注意力的计算，最后再合并不同子空间中的注意力信息。

FFN 通常由两个全连接层和一个非线性激活函数组成，提供非线性变换，增加模型的参数量。

它的主要思想是为每一层的输出添加一个快捷连接 (shortcut connection)，将输入直接传递到输出，减少了深层网络中常见的梯度爆炸和梯度消失现象。

最后一个 Transformer 块的输出经过 MLP 进行分类。