Transformer 27. Vision Transformer(ViT):把图像当作「词序列」的编码器摘要:本文解读 Google Research 提出的 Vision Transformer(ViT)(Dosovitskiy et al., 2021):在不改动 Transformer 编码器主干的前提下,将图像切成固定大小的 Patch,经线性嵌入与 可学习位置编码 组成序列,配合 类别 Token(class token) 做图像分类。文中说明 ViT 与 CNN 在 归纳偏置 上的差异、为何依赖 大规模预训练、序列长度与 patch 尺寸 对算力的影响,并给出与张量形状、单层计算相对应的直觉与公