深度学习高效性网络

为了减轻Transformer笨重的计算成本，一系列工作重点开发了高效的Vision Transformer，如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。

1、字节TRT-ViT

兼具CNN的速度、Transformer精度的模型

TRT-ViT（Transformer-based Vision Transformer）是一个结合了Transformer和ViT的模型，旨在同时利用CNN和Transformer的优点，以实现更高的性能和效率。TRT-ViT将CNN作为ViT的一部分，从而实现了在速度和精度之间的平衡。

TRT-ViT的核心思想是将CNN的局部性和Transformer的全局性相结合。具体来说，TRT-ViT使用CNN提取图像的局部特征，然后将这些特征作为Transformer的输入。这样，模型可以同时捕捉图像的局部信息和全局信息，从而实现更好的性能。

TRT-ViT的另一个关键特点是其高效性。由于它结合了CNN和Transformer的优点，因此在训练和推理过程中具有较高的效率。此外，TRT-ViT还采用了一些技术来减少计算量和内存消耗，以实现更高效的模型。

在实际应用中，TRT-ViT可以广泛应用于计算机视觉任务，如图像分类、目标检测和语义分割等。通过将CNN和Transformer相结合，TRT-ViT可以在速度和精度之间取得更好的平衡，从而满足不同任务的需求。

2、EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed，在IPhone12的推理延迟仅为1.6 ms

3、AdaptFormer

概念简单但有效的框架AdaptFormer，用于有效地将预训练的视觉Transformer（ViT）主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP，本文的AdaptFormer能够调整轻量级模块，以生成适应多个下游任务的特征。

4、Auto-scaling Vision Transformers

As-ViT（Auto-scaling Vision Transformers），这是一个无需训练的 ViT 自动扩展框架，它能以高效且有原则的方式自动设计和扩展 ViT。

5、MSG-Transformer

面向高分辨率的ViT框架：华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中，信使Token负责提取每一个局部区域的信息，并与其他信使token进行交换，然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度，在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大，所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上，其模型效果和Swin接近，但其在CPU上速度较快。在COCO数据集上，基于Mask R-CNN模型，也可以和Swin模型取得类似的效果。此外，信使Token的机制在建模时间信息上也有着明显优势，相信该机制在未来Transformer结构设计中能够带来更多的启发。