在之前的内容里,我们展开了 CNN 的一些演进,知道 CNN 本身也在不断发展。
现在我们再绕回 Transformer :在 21 年 Swin Transformer发表后,以它为代表的诸多 ViT 工作,已经在多个视觉任务上全面超越传统 CNN。
这带来了一个非常现实的思考:
就像珍妮机淘汰手工纺织一样,ViT 会不会将 CNN 扫入历史?
要对这个问题下初步结论,还需要简单回顾一下之前的内容:
20 年,最初的 Vision Transformer其实只是对图像数据进行了序列化处理后输入 Transformer ,因此这也带来了需要超大数据量和超高计算量的问题,虽然实现了 SOTA ,但没有较高的可用性。
所以,Data-efficient Image Transformer提出通过蒸馏,以教师模型的输出监督训练,从而缓解 ViT 的数据依赖问题。有趣的是,这里的教师模型就是训练好的强大 CNN,因此,DeiT 虽然提高了可用性,但却并不"独立"。
于是,Swin Transformer不再追求引入外部的归纳配置,而是通过自身结构的改进来重建偏置,从而成为 ViT 的核心代表。不过,由于它的改进点太像 CNN 里的卷积和池化逻辑,因此也常被称为"Transformer 版的 CNN"。
到这里,就到了思维上的关键点:
图像数据本身的先验都是相同的,无论是卷积池化,还是 windows attention 和 patch merging ,其实都是根据局部性、平移不变性等先验引入的归纳偏置,所以看起来十分相似。
总结来说一句话:题目都是一样的,就看你的解题方法。
所以,在 Transformer 大获成功之后,研究者并没有直接放弃 CNN,反而提出了新的想法:
让 CNN 再借鉴一下 Transformer 的解题思路试试呢?
这正是论文 ConvNeXt: A ConvNet for the 2020s 的出发点,顾名思义:20 年代的卷积网络。
我们用对比方式来展开其详细改进,其实每一点都不算复杂:
1. 大卷积核和 windows attention
在之前的 Swin Transformer 中,一个非常核心的设计是:
将全局 Attention 限制在局部窗口(window)内计算
这一设计既降低了计算复杂度,还引入了局部性归纳偏置。
如果说 Swin 把全局 Attention 拆成局部 Attention 是在学"局部 ",那 ConvNeXt 的相应设计就是在学"全局"。
传统 CNN 常用的是 \(3\times3\) 卷积核,这带来的问题是感受野增长依赖层数堆叠,同时单层建模能力也较弱。
所以,ConvNeXt 的改动内容是:
将卷积核从 \(3\times3\) 扩展到 \(7\times7\) 。
这一步可以理解为:用"大卷积核"去逼近 window attention 的感受野。
不过要强调的是,虽然感受野的范围更接近了,但两者仍然有本质区别:Attention 使用的是内容相关的动态权重,而普通卷积核虽然在迭代学习,但还是参数固定的静态权重。
2. 解耦卷积和 Swin Block
同样还是先回顾一下,在 ViT 及其后续结构中,一个清晰的设计范式是:
空间建模(Attention) + 通道建模(MLP)分开进行。
而在传统 CNN 中,这两件事是"绑在一起"的:标准卷积同时完成:空间建模 + 通道融合。
简单展开如下:


如图所示,我们对这种耦合问题并不陌生,这种学习负担会让卷积的表达能力不够灵活,从而限制模型上限。
于是,ConvNeXt 引入的相应设计是:
把一层标准卷积拆成两层:Depthwise Conv + Pointwise Conv,一个只做空间建模,一个只做通道融合。
需要说明的是,这种思路不是 ConvNeXt 首创的 ,早在 17 年的论文:Xception: Deep Learning with Depthwise Separable Convolutions中已经提出了这种卷积可以完全解耦的思想。
而 ConvNeXt 在这里的使用其实是赋予了其与 Transformer 对齐的结构意义。
| Transformer | ConvNeXt |
|---|---|
| Attention | Depthwise Conv |
| MLP | Pointwise Conv |
具体展开如下:

这一改动,可以说是 ConvNeXt 最接近 Transformer 思想的一步。
3. LayerNorm
这里同样是在向 Transformer 看齐,传统 CNN 普遍使用的是 Batch Normalization,而 ViT 系列统一使用 Layer Normalization .
两者都是用来稳定梯度,加速收敛的归一化手段,核心区别在于 BN 的效果依赖 batch 统计量,而 LN 是对单样本归一化。
所以,ConvNeXt 做出的选择是:
全面用 LayerNorm 替代 BatchNorm。
并不复杂,就不再展开了。
4. ConvNeXt 整体结构
完成了几大改进点后,就像一个个组件组成 Transformer block 一样,我们也可以得到 ConvNeXt Block 如下:

这种结构我们已经很熟悉了,这里有一点我们没提过,是 GELU(Gaussian Error Linear Unit,高斯误差线性单元)激活函数。
简单展开一下,我们知道最基础的 ReLU 是:
\[\text{ReLU}(x)=\max(0,x) \]
它的思想很简单:小于 0 的信息直接丢掉,大于 0 的保留。
但问题在于它是硬截断,但现实数据往往不是非黑即白的。
于是就有了 GELU ,其思想是:
一个神经元的输出,不是"过不过",而是"有多大概率应该通过"。
其定义是:
\[\text{GELU}(x)=x \cdot \Phi(x) \]
其中, \(\Phi(x)\) 是标准正态分布的 CDF ,解释起来涉及较多统计内容,而且真实 CDF 计算很复杂,所以工程上常用近似:
\[\text{GELU}(x) \approx 0.5x\left(1+\tanh\left[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right]\right) \]
我们从作用效果上来理解其作用:
| x | Φ(x) |
|---|---|
| 很小(负数) | 接近 0 |
| 0 | 0.5 |
| 很大(正数) | 接近 1 |
其实就是得到一个权重,以此来决定保留多少 \(x\) 本身的信息量。
GELU 的优势在于没有那么"硬",它不会丢掉负值信息,让梯度更平滑,从而更适合需要堆叠的深层网络优化。
所以 Transformer 的 MLP 中更常用 GELU 激活,ConvNeXt 同样对齐了这一设置。
了解完 ConvNeXt Block,剩下的内容就是堆叠了,不再多说,ConvNeXt 整体结构如下:

一个细节是 ConvNeXt 在每个 stage 的输出仍然保持着"空间尺寸减半,通道数加倍"的设计,但这里要说明的是:
ConvNeXt 没有使用任何池化,而是用 stride = 2 的 2×2 卷积来改变输出特征图的空间尺度。
其逻辑是:把所有"手工设计操作"尽量替换成可学习的卷积结构,来实现更完善的数据驱动。
同时,这里的 stride = 2 的卷积其实对齐的是 Swin Transformer 里的 patch merging 操作,步长的设计保证了采样不重叠。
至此,就完成了 ConvNeXt 的完整内容。
5. 总结
上面这里藏了一个问题:
patch merging 这一操作并不和 ConvNeXt 互斥,为什么 ConvNeXt 不直接使用它,而是用 stride = 2 的 2×2 卷积?
其实,这恰恰证明了:CNN 并没有失去表达能力,只是需要"现代化设计语言"。
证据就是:我只借鉴了你的思路,用的还是我自己的东西,并实现了 SOTA 。
从其后续影响来说,ConvNeXt 像是一个分界点 ,在它之前,CNN 和 Transformer 是两条相对独立的发展路径,在它之后,视觉模型开始出现明显的融合趋势。
这种趋势延续至今,简单来说就是:你有了新思路,我学过来试试,反之也是一样的。
后续大量工作都在尝试统一两者的优势,只是就目前而言,还没有出现范式级别的成果。