OUC AI Lab 第七章:ViT & Swin Transformervit的流程图如下所示 transformer输入的二维的[batch,seq,emb],也就是批次,语句长度,每个字被映射成的向量。 而要想在cv领域也使用transformer,整体的思路是 1 将输入图像分为不同大小的patches 假设输入的图像大小为224*224*3,那么如果我们想要划分为的patches是16*16的形状,那么显然一共会有14*14=196个patches,然后我们还想要每个patches映射为786维的token(注意这里的token长度是自己定义的) 如何划分为patch