如何在CV中使用transformer首先看一下谷歌的开篇论文AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE这篇论文是计算机视觉领域具有里程碑意义的开山之作,由谷歌研究团队(Google Research, Brain Team)在2020年提出,并在2021年的 ICLR 会议上发表。它首次成功地将自然语言处理(NLP)领域大火的 Transformer架构,直接应用到了图像识别任务中,打破了卷积神经网络(CNN)在视觉领域的长期统治地位。