计算机视觉|ConvNeXt:CNN 的复兴,Transformer 的新对手在计算机视觉领域,卷积神经网络(Convolutional Neural Networks,简称 CNN)长期以来一直是核心技术,自诞生以来,它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果。然而,随着 Vision Transformer(ViT)的出现,计算机视觉领域的格局发生了重大变化。ViT 通过自注意力机制,打破了传统卷积神经网络的局部感知局限,能够捕捉长距离依赖关系,在图像分类等任务中展现出强大的性能,迅速成为研究热点 。