【计算机视觉 | 图像模型】常见的计算机视觉 image model（CNNs & Transformers）的介绍合集（九）

文章目录

- 一、GreedyNAS-C
- 二、RegionViT
- 三、DenseNAS-B
- 四、DenseNAS-C
- 五、DiCENet
- 六、uNetXST
- 七、CSPPeleeNet
- 八、PocketNet
- 九、OODformer
- 十、DeepSIM
- [十一、Conditional Position Encoding Vision Transformer（CPVT）](#十一、Conditional Position Encoding Vision Transformer（CPVT）)
- 十二、ESPNetv2
- [十三、Shuffle Transformer](#十三、Shuffle Transformer)
- 十四、ECA-Net
- 十五、CSPDenseNet

一、GreedyNAS-C

GreedyNAS-C 是使用 GreedyNAS 神经架构搜索方法发现的卷积神经网络。使用的基本构建块是反向残差块（来自 MobileNetV2）和挤压和激励块。

二、RegionViT

RegionViT 由两个标记化过程组成，将图像转换为区域标记（上方路径）和本地标记（下方路径）。每个标记化都是具有不同补丁大小的卷积，区域标记的补丁大小为 2 8 2 28^2 282尽管 4 2 4^2 42用于尺寸投影为的本地标记 C C C，这意味着一个区域代币涵盖 7 2 7^2 72基于空间局部性的局部标记，导致局部区域的窗口大小 7 2 7^2 72。在第 1 阶段，两组令牌通过建议的区域到本地转换器编码器传递。然而，在后期，为了平衡计算负载并获得不同分辨率的特征图，该方法使用下采样过程将空间分辨率减半，同时在区域和局部标记上将通道尺寸加倍，然后再进入下一个阶段阶段。最后，在网络的末端，它简单地平均剩余的区域标记作为分类的最终嵌入，而检测在每个阶段使用所有本地标记，因为它提供了更细粒度的位置信息。通过金字塔结构，ViT 可以生成多尺度特征，因此可以轻松扩展到更多视觉应用，例如对象检测，而不仅仅是图像分类。

三、DenseNAS-B

DenseNAS-B 是通过 DenseNAS 神经架构搜索方法发现的移动卷积神经网络。基本构建块是 MobileNet 架构中的 MBConvs（或反向瓶颈残差）。

四、DenseNAS-C

DenseNAS-C 是通过 DenseNAS 神经架构搜索方法发现的移动卷积神经网络。基本构建块是 MobileNet 架构中的 MBConvs（或反向瓶颈残差）。

五、DiCENet

DiCENet 是一种利用维度卷积（和维度融合）的卷积神经网络架构。维度卷积在输入张量的每个维度上应用轻量级卷积滤波，而维度融合有效地组合了这些维度表示；允许网络中的 DiCE 单元有效地编码输入张量中包含的空间和通道信息。

六、uNetXST

uNet 神经网络架构，采用多个 (X) 张量作为输入并包含空间变换单元 (ST)

七、CSPPeleeNet

CSPPeleeNet 是一个卷积神经网络和对象检测主干，我们将跨阶段部分网络 (CSPNet) 方法应用于 PeleeNet。 CSPNet 将基础层的特征图划分为两部分，然后通过跨阶段层次结构将它们合并。使用拆分和合并策略允许更多的梯度流通过网络。

八、PocketNet

PocketNet 是通过神经架构搜索发现的人脸识别模型系列。培训基于多步骤知识蒸馏。

九、OODformer

OODformer 是一种基于 Transformer 的 OOD 检测架构，它利用 Transformer 的上下文化功能。将转换器作为主要特征提取器可以通过视觉注意来利用对象概念及其区分属性以及它们的共现。

OODformer 采用 ViT 及其数据高效变体 DeiT。每个编码器层由多头自注意力和多层感知块组成。编码器中的 MSA 和 MLP 层的组合对属性的重要性、关联相关性和共现进行联合编码。 $class$ 标记（图像的代表）通过全局上下文整合多个属性及其相关特征。最后一层的 $class$ 标记以两种方式用于 OOD 检测；首先，它被传递给用于softmax置信度得分，其次用于潜在空间距离计算。

十、DeepSIM

DeepSIM 是一种基于单张图像的条件图像处理的生成模型。网络学习将图像的原始表示映射到图像本身。在操作时，生成器允许通过修改原始输入表示并通过网络映射它来进行复杂的图像更改。原始表示的选择会影响操作的简便性和表现力，并且可以是自动的（例如边缘）、手动的或混合的，例如分割顶部的边缘。

十一、Conditional Position Encoding Vision Transformer（CPVT）

CPVT（条件位置编码视觉变换器）是一种利用条件位置编码的视觉变换器。除了新的编码之外，它遵循 ViT 和 DeiT 相同的架构。

十二、ESPNetv2

ESPNetv2 是一种卷积神经网络，它利用组点式和深度式扩张可分离卷积，以更少的 FLOP 和参数从大的有效感受野中学习表示。

十三、Shuffle Transformer

Shuffle Transformer 模块由 Shuffle Multi-Head Self-Attention 模块 (ShuffleMHSA)、Neighbor-Window Connection 模块 (NWC) 和 MLP 模块组成。为了引入跨窗口连接，同时保持非重叠窗口的高效计算，提出了一种在连续的 Shuffle Transformer 块中交替使用 WMSA 和 Shuffle-WMSA 的策略。第一个基于窗口的 Transformer 块使用常规窗口分区策略，第二个基于窗口的 Transformer 块使用基于窗口的自注意力和空间混洗。此外，每个块中还添加了邻居窗口连接模块（NWC），以增强邻居窗口之间的连接。因此，所提出的洗牌变压器块可以构建丰富的跨窗口连接并增强表示。最后，连续的 Shuffle Transformer 块计算如下：

十四、ECA-Net

ECA-Net 是一种利用高效通道注意力模块的卷积神经网络。

十五、CSPDenseNet

CSPDenseNet 是一个卷积神经网络和对象检测主干，我们将跨阶段部分网络 (CSPNet) 方法应用于 DenseNet。 CSPNet 将基础层的特征图划分为两部分，然后通过跨阶段层次结构将它们合并。使用拆分和合并策略允许更多的梯度流通过网络。

【计算机视觉 | 图像模型】常见的计算机视觉 image model（CNNs & Transformers） 的介绍合集（九）