基于 CNN 的图像分类算法变迁史（概述）

披着羊皮不是狼2026-04-02 10:51

目录

LeNet(1998)
AlexNet (2012)
VGG (2014)
GoogLeNet (2014)
ResNet (2015)
[MobileNet / ShuffleNet (2017+)](#MobileNet / ShuffleNet (2017+))

在视觉领域，算法的变迁本质上是对"卷积"这一算子潜力的极致压榨。

LeNet(1998)

核心逻辑：首次提出了"卷积+池化+全连接"的经典范式。
历史局限：受限于当时的算力（CPU）和数据量，它只能处理简单的手写数字。但它确立了局部连接和权值共享这两个核心思想，这至今仍是所有视觉芯片设计的底层逻辑。

AlexNet (2012)

变迁本质：既然小模型不行，那就把模型做大、做深。
技术突破：
- ReLU 激活函数：替代了 Sigmoid，解决了深层网络"学不动"（梯度消失）的问题。
- GPU 并行计算：第一次证明了大规模并行计算对于深度学习的不可替代性。
现实意义：它在 ImageNet 比赛中碾压传统视觉算法，宣告了"人工设计特征"时代的终结。

VGG (2014)

架构：丢弃了 AlexNet 中杂乱的卷积核尺寸，统一使用 3x3 小核。
深层逻辑：两个 3x3 卷积叠在一起，感受野（视野）和一个 5x5 一样大，但参数更少，且多了两次非线性变换。
系统视角：这种规整的结构极大方便了后续硬件加速器的指令集设计，模型虽然参数多，但"算起来很顺手"。

GoogLeNet (2014)

变迁方向：不仅仅堆深度，还要增加宽度。
Inception 模块：在一层里并排运行 1x1、3x3、5x5 卷积。
降维打击：引入 1x1 卷积极大地压缩了通道数。
结果：它的参数量只有 AlexNet 的 1/12，精度却更高。这说明：精巧的结构设计可以战胜盲目的堆料。

ResNet (2015)

核心矛盾：理论上网络越深效果越好，但实际超过 20 层后，准确率反而下降（深层退化）。
残差连接（Skip Connection）：既然直接学习 H(x) 很难，那就学习 H(x)−x（残差）。它在网络中修了一条"高速公路"，让信息和梯度可以无损地跨层传递。
历史地位：将网络深度从几十层推向了 1000+ 层。它是目前工业界应用最广、最稳定的骨干网络（Backbone）。

硬件联系：由于残差连接的存在，硬件在处理时需要额外的缓存（Buffer）来暂存 x 的值，这给片上存储的设计提出了挑战。

MobileNet / ShuffleNet (2017+)

变迁背景：自动驾驶、手机端不需要 ResNet 那么重的模型，它们需要"轻量化"。
深度可分离卷积（Depthwise Separable Conv）：将标准卷积拆分为两步，计算量直接下降到原来的 1/9 左右。

上一篇：从零搭建私有 npm 仓库Verdaccio

下一篇：实现聊天参数面板

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03头歌软件工程导论UML画图题(基于starUML)04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05【AI】2026 年具身智能模型和世界模型总结 06Codex 手机端连接教程：三分钟搞定，附完整步骤 07AI科技热点日报 | 2026年5月11日 08零基础教你claude code 接入 deepseek V4 09Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 10人工智能最新动态 AI 日报 · 2026年5月10日