深度学习进阶(十四)ConvNeXt

在之前的内容里,我们展开了 CNN 的一些演进,知道 CNN 本身也在不断发展。

现在我们再绕回 Transformer :在 21 年 Swin Transformer发表后,以它为代表的诸多 ViT 工作,已经在多个视觉任务上全面超越传统 CNN

这带来了一个非常现实的思考:

就像珍妮机淘汰手工纺织一样,ViT 会不会将 CNN 扫入历史?

要对这个问题下初步结论,还需要简单回顾一下之前的内容:

20 年,最初的 Vision Transformer其实只是对图像数据进行了序列化处理后输入 Transformer ,因此这也带来了需要超大数据量和超高计算量的问题,虽然实现了 SOTA ,但没有较高的可用性。

所以,Data-efficient Image Transformer提出通过蒸馏,以教师模型的输出监督训练,从而缓解 ViT 的数据依赖问题。有趣的是,这里的教师模型就是训练好的强大 CNN,因此,DeiT 虽然提高了可用性,但却并不"独立"。

于是,Swin Transformer不再追求引入外部的归纳配置,而是通过自身结构的改进来重建偏置,从而成为 ViT 的核心代表。不过,由于它的改进点太像 CNN 里的卷积和池化逻辑,因此也常被称为"Transformer 版的 CNN"。

到这里,就到了思维上的关键点:

图像数据本身的先验都是相同的,无论是卷积池化,还是 windows attention 和 patch merging ,其实都是根据局部性、平移不变性等先验引入的归纳偏置,所以看起来十分相似。

总结来说一句话:题目都是一样的,就看你的解题方法。

所以,在 Transformer 大获成功之后,研究者并没有直接放弃 CNN,反而提出了新的想法:

让 CNN 再借鉴一下 Transformer 的解题思路试试呢?

这正是论文 ConvNeXt: A ConvNet for the 2020s 的出发点,顾名思义:20 年代的卷积网络。

我们用对比方式来展开其详细改进,其实每一点都不算复杂:

1. 大卷积核和 windows attention

在之前的 Swin Transformer 中,一个非常核心的设计是:

将全局 Attention 限制在局部窗口(window)内计算

这一设计既降低了计算复杂度,还引入了局部性归纳偏置。

如果说 Swin 把全局 Attention 拆成局部 Attention 是在学"局部 ",那 ConvNeXt 的相应设计就是在学"全局"。

传统 CNN 常用的是 \(3\times3\) 卷积核,这带来的问题是感受野增长依赖层数堆叠,同时单层建模能力也较弱。

所以,ConvNeXt 的改动内容是:

将卷积核从 \(3\times3\) 扩展到 \(7\times7\) 。

这一步可以理解为:用"大卷积核"去逼近 window attention 的感受野。

不过要强调的是,虽然感受野的范围更接近了,但两者仍然有本质区别:Attention 使用的是内容相关的动态权重,而普通卷积核虽然在迭代学习,但还是参数固定的静态权重。

2. 解耦卷积和 Swin Block

同样还是先回顾一下,在 ViT 及其后续结构中,一个清晰的设计范式是:

空间建模(Attention) + 通道建模(MLP)分开进行。

而在传统 CNN 中,这两件事是"绑在一起"的:标准卷积同时完成:空间建模 + 通道融合。

简单展开如下:

如图所示,我们对这种耦合问题并不陌生,这种学习负担会让卷积的表达能力不够灵活,从而限制模型上限。

于是,ConvNeXt 引入的相应设计是:

把一层标准卷积拆成两层:Depthwise Conv + Pointwise Conv,一个只做空间建模,一个只做通道融合。

需要说明的是,这种思路不是 ConvNeXt 首创的 ,早在 17 年的论文:Xception: Deep Learning with Depthwise Separable Convolutions中已经提出了这种卷积可以完全解耦的思想。

而 ConvNeXt 在这里的使用其实是赋予了其与 Transformer 对齐的结构意义

Transformer ConvNeXt
Attention Depthwise Conv
MLP Pointwise Conv

具体展开如下:

这一改动,可以说是 ConvNeXt 最接近 Transformer 思想的一步。

3. LayerNorm

这里同样是在向 Transformer 看齐,传统 CNN 普遍使用的是 Batch Normalization,而 ViT 系列统一使用 Layer Normalization .

两者都是用来稳定梯度,加速收敛的归一化手段,核心区别在于 BN 的效果依赖 batch 统计量,而 LN 是对单样本归一化。

所以,ConvNeXt 做出的选择是:

全面用 LayerNorm 替代 BatchNorm。

并不复杂,就不再展开了。

4. ConvNeXt 整体结构

完成了几大改进点后,就像一个个组件组成 Transformer block 一样,我们也可以得到 ConvNeXt Block 如下:

这种结构我们已经很熟悉了,这里有一点我们没提过,是 GELU(Gaussian Error Linear Unit,高斯误差线性单元)激活函数。

简单展开一下,我们知道最基础的 ReLU 是:

\[\text{ReLU}(x)=\max(0,x) \]

它的思想很简单:小于 0 的信息直接丢掉,大于 0 的保留。

但问题在于它是硬截断,但现实数据往往不是非黑即白的。

于是就有了 GELU ,其思想是:

一个神经元的输出,不是"过不过",而是"有多大概率应该通过"。

其定义是:

\[\text{GELU}(x)=x \cdot \Phi(x) \]

其中, \(\Phi(x)\) 是标准正态分布的 CDF ,解释起来涉及较多统计内容,而且真实 CDF 计算很复杂,所以工程上常用近似

\[\text{GELU}(x) \approx 0.5x\left(1+\tanh\left[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right]\right) \]

我们从作用效果上来理解其作用:

x Φ(x)
很小(负数) 接近 0
0 0.5
很大(正数) 接近 1

其实就是得到一个权重,以此来决定保留多少 \(x\) 本身的信息量。

GELU 的优势在于没有那么"硬",它不会丢掉负值信息,让梯度更平滑,从而更适合需要堆叠的深层网络优化。

所以 Transformer 的 MLP 中更常用 GELU 激活,ConvNeXt 同样对齐了这一设置。

了解完 ConvNeXt Block,剩下的内容就是堆叠了,不再多说,ConvNeXt 整体结构如下:

一个细节是 ConvNeXt 在每个 stage 的输出仍然保持着"空间尺寸减半,通道数加倍"的设计,但这里要说明的是:

ConvNeXt 没有使用任何池化,而是用 stride = 2 的 2×2 卷积来改变输出特征图的空间尺度。

其逻辑是:把所有"手工设计操作"尽量替换成可学习的卷积结构,来实现更完善的数据驱动。

同时,这里的 stride = 2 的卷积其实对齐的是 Swin Transformer 里的 patch merging 操作,步长的设计保证了采样不重叠

至此,就完成了 ConvNeXt 的完整内容。

5. 总结

上面这里藏了一个问题:

patch merging 这一操作并不和 ConvNeXt 互斥,为什么 ConvNeXt 不直接使用它,而是用 stride = 2 的 2×2 卷积?

其实,这恰恰证明了:CNN 并没有失去表达能力,只是需要"现代化设计语言"。

证据就是:我只借鉴了你的思路,用的还是我自己的东西,并实现了 SOTA 。

从其后续影响来说,ConvNeXt 像是一个分界点 ,在它之前,CNN 和 Transformer 是两条相对独立的发展路径,在它之后,视觉模型开始出现明显的融合趋势。

这种趋势延续至今,简单来说就是:你有了新思路,我学过来试试,反之也是一样的。

后续大量工作都在尝试统一两者的优势,只是就目前而言,还没有出现范式级别的成果。

相关推荐
垚森3 小时前
VibePlayer v1.3.3 更新:全新 Logo + 修复音乐库高亮 Bug
ai·electron
码途漫谈3 小时前
Easy-Vibe开发篇阅读笔记(二)——前端开发之Figma与MasterGo入门
人工智能·笔记·ai·开源·ai编程·figma
Mr_sst3 小时前
infra-ai模块宏观设计解析:业务与模型之间的中间层核心架构
大数据·人工智能·ai·llama
笨蛋©4 小时前
[实战] 数字化质量管理中的检验计划提效指南:从手工气泡图到AI自动识别
ai·数字化·cad·质量管理·制造业
imbackneverdie4 小时前
sci期刊示意图、流程图、机制图怎么画?
人工智能·ai·aigc·科研绘图·ai工具·科研工具·ai生图
CoderJia程序员甲4 小时前
GitHub 热榜项目 - 日榜(2026-04-29)
ai·大模型·github·ai教程
程序员鱼皮4 小时前
我用 DeepSeek V4 + Claude Code 开发了个「提肛助手」,这波给我爽麻了。。。
ai·程序员·编程·ai编程·deepseek
Huang2601085 小时前
Producer Audios Generation API 集成指南
ai