目录
- LeNet(1998)
- AlexNet (2012)
- VGG (2014)
- GoogLeNet (2014)
- ResNet (2015)
- [MobileNet / ShuffleNet (2017+)](#MobileNet / ShuffleNet (2017+))
在视觉领域,算法的变迁本质上是对"卷积"这一算子潜力的极致压榨。
LeNet(1998)
- 核心逻辑: 首次提出了"卷积+池化+全连接"的经典范式。
- 历史局限: 受限于当时的算力(CPU)和数据量,它只能处理简单的手写数字。但它确立了局部连接和权值共享这两个核心思想,这至今仍是所有视觉芯片设计的底层逻辑。
AlexNet (2012)
- 变迁本质: 既然小模型不行,那就把模型做大、做深。
- 技术突破:
- ReLU 激活函数: 替代了 Sigmoid,解决了深层网络"学不动"(梯度消失)的问题。
- GPU 并行计算: 第一次证明了大规模并行计算对于深度学习的不可替代性。
- 现实意义: 它在 ImageNet 比赛中碾压传统视觉算法,宣告了"人工设计特征"时代的终结。
VGG (2014)
- 架构: 丢弃了 AlexNet 中杂乱的卷积核尺寸,统一使用 3x3 小核。
- 深层逻辑: 两个 3x3 卷积叠在一起,感受野(视野)和一个 5x5 一样大,但参数更少,且多了两次非线性变换。
- 系统视角: 这种规整的结构极大方便了后续硬件加速器的指令集设计,模型虽然参数多,但"算起来很顺手"。
GoogLeNet (2014)
- 变迁方向: 不仅仅堆深度,还要增加宽度。
- Inception 模块: 在一层里并排运行 1x1、3x3、5x5 卷积。
- 降维打击: 引入 1x1 卷积 极大地压缩了通道数。
- 结果: 它的参数量只有 AlexNet 的 1/12,精度却更高。这说明:精巧的结构设计可以战胜盲目的堆料。
ResNet (2015)
- 核心矛盾: 理论上网络越深效果越好,但实际超过 20 层后,准确率反而下降(深层退化)。
- 残差连接(Skip Connection): 既然直接学习 H(x) 很难,那就学习 H(x)−x(残差)。它在网络中修了一条"高速公路",让信息和梯度可以无损地跨层传递。
- 历史地位: 将网络深度从几十层推向了 1000+ 层。它是目前工业界应用最广、最稳定的骨干网络(Backbone)。
硬件联系:由于残差连接的存在,硬件在处理时需要额外的缓存(Buffer)来暂存 x 的值,这给片上存储的设计提出了挑战。
MobileNet / ShuffleNet (2017+)
- 变迁背景: 自动驾驶、手机端不需要 ResNet 那么重的模型,它们需要"轻量化"。
- 深度可分离卷积(Depthwise Separable Conv): 将标准卷积拆分为两步,计算量直接下降到原来的 1/9 左右。