在之前的内容里，我们展开了 CNN 的一些演进，知道 CNN 本身也在不断发展。

现在我们再绕回 Transformer ：在 21 年 Swin Transformer发表后，以它为代表的诸多 ViT 工作，已经在多个视觉任务上全面超越传统 CNN。

这带来了一个非常现实的思考：

就像珍妮机淘汰手工纺织一样，ViT 会不会将 CNN 扫入历史？

要对这个问题下初步结论，还需要简单回顾一下之前的内容：

20 年，最初的 Vision Transformer其实只是对图像数据进行了序列化处理后输入 Transformer ，因此这也带来了需要超大数据量和超高计算量的问题，虽然实现了 SOTA ，但没有较高的可用性。

所以，Data-efficient Image Transformer提出通过蒸馏，以教师模型的输出监督训练，从而缓解 ViT 的数据依赖问题。有趣的是，这里的教师模型就是训练好的强大 CNN，因此，DeiT 虽然提高了可用性，但却并不"独立"。

于是，Swin Transformer不再追求引入外部的归纳配置，而是通过自身结构的改进来重建偏置，从而成为 ViT 的核心代表。不过，由于它的改进点太像 CNN 里的卷积和池化逻辑，因此也常被称为"Transformer 版的 CNN"。

到这里，就到了思维上的关键点：

图像数据本身的先验都是相同的，无论是卷积池化，还是 windows attention 和 patch merging ，其实都是根据局部性、平移不变性等先验引入的归纳偏置，所以看起来十分相似。

总结来说一句话：题目都是一样的，就看你的解题方法。

所以，在 Transformer 大获成功之后，研究者并没有直接放弃 CNN，反而提出了新的想法：

让 CNN 再借鉴一下 Transformer 的解题思路试试呢？

这正是论文 ConvNeXt: A ConvNet for the 2020s 的出发点，顾名思义：20 年代的卷积网络。

我们用对比方式来展开其详细改进，其实每一点都不算复杂：

1. 大卷积核和 windows attention

在之前的 Swin Transformer 中，一个非常核心的设计是：

将全局 Attention 限制在局部窗口（window）内计算

这一设计既降低了计算复杂度，还引入了局部性归纳偏置。

如果说 Swin 把全局 Attention 拆成局部 Attention 是在学"局部 "，那 ConvNeXt 的相应设计就是在学"全局"。

传统 CNN 常用的是 \(3\times3\) 卷积核，这带来的问题是感受野增长依赖层数堆叠，同时单层建模能力也较弱。

所以，ConvNeXt 的改动内容是：

将卷积核从 \(3\times3\) 扩展到 \(7\times7\) 。

这一步可以理解为：用"大卷积核"去逼近 window attention 的感受野。

不过要强调的是，虽然感受野的范围更接近了，但两者仍然有本质区别：Attention 使用的是内容相关的动态权重，而普通卷积核虽然在迭代学习，但还是参数固定的静态权重。

2. 解耦卷积和 Swin Block

同样还是先回顾一下，在 ViT 及其后续结构中，一个清晰的设计范式是：

空间建模（Attention） + 通道建模（MLP）分开进行。

而在传统 CNN 中，这两件事是"绑在一起"的：标准卷积同时完成：空间建模 + 通道融合。

简单展开如下：

如图所示，我们对这种耦合问题并不陌生，这种学习负担会让卷积的表达能力不够灵活，从而限制模型上限。

于是，ConvNeXt 引入的相应设计是：

把一层标准卷积拆成两层：Depthwise Conv + Pointwise Conv，一个只做空间建模，一个只做通道融合。

需要说明的是，这种思路不是 ConvNeXt 首创的 ，早在 17 年的论文：Xception: Deep Learning with Depthwise Separable Convolutions中已经提出了这种卷积可以完全解耦的思想。

而 ConvNeXt 在这里的使用其实是赋予了其与 Transformer 对齐的结构意义。

Transformer	ConvNeXt
Attention	Depthwise Conv
MLP	Pointwise Conv

具体展开如下：

这一改动，可以说是 ConvNeXt 最接近 Transformer 思想的一步。

3. LayerNorm

这里同样是在向 Transformer 看齐，传统 CNN 普遍使用的是 Batch Normalization，而 ViT 系列统一使用 Layer Normalization .

两者都是用来稳定梯度，加速收敛的归一化手段，核心区别在于 BN 的效果依赖 batch 统计量，而 LN 是对单样本归一化。

所以，ConvNeXt 做出的选择是：

全面用 LayerNorm 替代 BatchNorm。

并不复杂，就不再展开了。

4. ConvNeXt 整体结构

完成了几大改进点后，就像一个个组件组成 Transformer block 一样，我们也可以得到 ConvNeXt Block 如下:

这种结构我们已经很熟悉了，这里有一点我们没提过，是 GELU（Gaussian Error Linear Unit，高斯误差线性单元）激活函数。

简单展开一下，我们知道最基础的 ReLU 是：

\[\text{ReLU}(x)=\max(0,x) \]

它的思想很简单：小于 0 的信息直接丢掉，大于 0 的保留。

但问题在于它是硬截断，但现实数据往往不是非黑即白的。

于是就有了 GELU ，其思想是：

一个神经元的输出，不是"过不过"，而是"有多大概率应该通过"。

其定义是：

\[\text{GELU}(x)=x \cdot \Phi(x) \]

其中， \(\Phi(x)\) 是标准正态分布的 CDF ，解释起来涉及较多统计内容，而且真实 CDF 计算很复杂，所以工程上常用近似：

\[\text{GELU}(x) \approx 0.5x\left(1+\tanh\left[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right]\right) \]

我们从作用效果上来理解其作用：

x	Φ(x)
很小（负数）	接近 0
0	0.5
很大（正数）	接近 1

其实就是得到一个权重，以此来决定保留多少 \(x\) 本身的信息量。

GELU 的优势在于没有那么"硬"，它不会丢掉负值信息，让梯度更平滑，从而更适合需要堆叠的深层网络优化。

所以 Transformer 的 MLP 中更常用 GELU 激活，ConvNeXt 同样对齐了这一设置。

了解完 ConvNeXt Block，剩下的内容就是堆叠了，不再多说，ConvNeXt 整体结构如下：

一个细节是 ConvNeXt 在每个 stage 的输出仍然保持着"空间尺寸减半，通道数加倍"的设计，但这里要说明的是：

ConvNeXt 没有使用任何池化，而是用 stride = 2 的 2×2 卷积来改变输出特征图的空间尺度。

其逻辑是：把所有"手工设计操作"尽量替换成可学习的卷积结构，来实现更完善的数据驱动。

同时，这里的 stride = 2 的卷积其实对齐的是 Swin Transformer 里的 patch merging 操作，步长的设计保证了采样不重叠。

至此，就完成了 ConvNeXt 的完整内容。

5. 总结

上面这里藏了一个问题：

patch merging 这一操作并不和 ConvNeXt 互斥，为什么 ConvNeXt 不直接使用它，而是用 stride = 2 的 2×2 卷积？

其实，这恰恰证明了：CNN 并没有失去表达能力，只是需要"现代化设计语言"。

证据就是：我只借鉴了你的思路，用的还是我自己的东西，并实现了 SOTA 。

从其后续影响来说，ConvNeXt 像是一个分界点 ，在它之前，CNN 和 Transformer 是两条相对独立的发展路径，在它之后，视觉模型开始出现明显的融合趋势。

这种趋势延续至今，简单来说就是：你有了新思路，我学过来试试，反之也是一样的。

后续大量工作都在尝试统一两者的优势，只是就目前而言，还没有出现范式级别的成果。

深度学习进阶（十四）ConvNeXt

1. 大卷积核和 windows attention

2. 解耦卷积和 Swin Block

3. LayerNorm

4. ConvNeXt 整体结构

5. 总结