基于 CNN 的图像分类算法变迁史(概述)

目录

在视觉领域,算法的变迁本质上是对"卷积"这一算子潜力的极致压榨。

LeNet(1998)

  • 核心逻辑: 首次提出了"卷积+池化+全连接"的经典范式。
  • 历史局限: 受限于当时的算力(CPU)和数据量,它只能处理简单的手写数字。但它确立了局部连接和权值共享这两个核心思想,这至今仍是所有视觉芯片设计的底层逻辑。

AlexNet (2012)

  • 变迁本质: 既然小模型不行,那就把模型做大、做深。
  • 技术突破:
    • ReLU 激活函数: 替代了 Sigmoid,解决了深层网络"学不动"(梯度消失)的问题。
    • GPU 并行计算: 第一次证明了大规模并行计算对于深度学习的不可替代性。
  • 现实意义: 它在 ImageNet 比赛中碾压传统视觉算法,宣告了"人工设计特征"时代的终结。

VGG (2014)

  • 架构: 丢弃了 AlexNet 中杂乱的卷积核尺寸,统一使用 3x3 小核。
  • 深层逻辑: 两个 3x3 卷积叠在一起,感受野(视野)和一个 5x5 一样大,但参数更少,且多了两次非线性变换。
  • 系统视角: 这种规整的结构极大方便了后续硬件加速器的指令集设计,模型虽然参数多,但"算起来很顺手"。

GoogLeNet (2014)

  • 变迁方向: 不仅仅堆深度,还要增加宽度。
  • Inception 模块: 在一层里并排运行 1x1、3x3、5x5 卷积。
  • 降维打击: 引入 1x1 卷积 极大地压缩了通道数。
  • 结果: 它的参数量只有 AlexNet 的 1/12,精度却更高。这说明:精巧的结构设计可以战胜盲目的堆料。

ResNet (2015)

  • 核心矛盾: 理论上网络越深效果越好,但实际超过 20 层后,准确率反而下降(深层退化)。
  • 残差连接(Skip Connection): 既然直接学习 H(x) 很难,那就学习 H(x)−x(残差)。它在网络中修了一条"高速公路",让信息和梯度可以无损地跨层传递。
  • 历史地位: 将网络深度从几十层推向了 1000+ 层。它是目前工业界应用最广、最稳定的骨干网络(Backbone)。

硬件联系:由于残差连接的存在,硬件在处理时需要额外的缓存(Buffer)来暂存 x 的值,这给片上存储的设计提出了挑战。

MobileNet / ShuffleNet (2017+)

  • 变迁背景: 自动驾驶、手机端不需要 ResNet 那么重的模型,它们需要"轻量化"。
  • 深度可分离卷积(Depthwise Separable Conv): 将标准卷积拆分为两步,计算量直接下降到原来的 1/9 左右。
相关推荐
XM_jhxx4 小时前
±0.03mm的精度怎么保证?翌东塑胶用AI赋能质量管控升级
人工智能
阿正的梦工坊4 小时前
深入理解 PyTorch 中的 unsqueeze 操作
人工智能·pytorch·python
秦歌6666 小时前
DeepAgents框架详解和文件后端
人工智能·langchain
测试员周周7 小时前
【Appium 系列】第06节-页面对象实现 — LoginPage 实战
开发语言·前端·人工智能·python·功能测试·appium·测试用例
霸道流氓气质7 小时前
基于 Milvus Lite 的 Spring AI RAG 向量库实践方案与示例
人工智能·spring·milvus
ar01237 小时前
AR巡检平台:构筑智能巡检新模式的数字化引擎
人工智能·ar
语音之家7 小时前
【预讲会征集】ACL 2026 论文预讲会
人工智能·论文·acl
碳基硅坊7 小时前
电商场景下的商品自动识别与辅助上架
人工智能
熊猫钓鱼>_>7 小时前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程