基于 CNN 的图像分类算法变迁史(概述)

目录

在视觉领域,算法的变迁本质上是对"卷积"这一算子潜力的极致压榨。

LeNet(1998)

  • 核心逻辑: 首次提出了"卷积+池化+全连接"的经典范式。
  • 历史局限: 受限于当时的算力(CPU)和数据量,它只能处理简单的手写数字。但它确立了局部连接和权值共享这两个核心思想,这至今仍是所有视觉芯片设计的底层逻辑。

AlexNet (2012)

  • 变迁本质: 既然小模型不行,那就把模型做大、做深。
  • 技术突破:
    • ReLU 激活函数: 替代了 Sigmoid,解决了深层网络"学不动"(梯度消失)的问题。
    • GPU 并行计算: 第一次证明了大规模并行计算对于深度学习的不可替代性。
  • 现实意义: 它在 ImageNet 比赛中碾压传统视觉算法,宣告了"人工设计特征"时代的终结。

VGG (2014)

  • 架构: 丢弃了 AlexNet 中杂乱的卷积核尺寸,统一使用 3x3 小核。
  • 深层逻辑: 两个 3x3 卷积叠在一起,感受野(视野)和一个 5x5 一样大,但参数更少,且多了两次非线性变换。
  • 系统视角: 这种规整的结构极大方便了后续硬件加速器的指令集设计,模型虽然参数多,但"算起来很顺手"。

GoogLeNet (2014)

  • 变迁方向: 不仅仅堆深度,还要增加宽度。
  • Inception 模块: 在一层里并排运行 1x1、3x3、5x5 卷积。
  • 降维打击: 引入 1x1 卷积 极大地压缩了通道数。
  • 结果: 它的参数量只有 AlexNet 的 1/12,精度却更高。这说明:精巧的结构设计可以战胜盲目的堆料。

ResNet (2015)

  • 核心矛盾: 理论上网络越深效果越好,但实际超过 20 层后,准确率反而下降(深层退化)。
  • 残差连接(Skip Connection): 既然直接学习 H(x) 很难,那就学习 H(x)−x(残差)。它在网络中修了一条"高速公路",让信息和梯度可以无损地跨层传递。
  • 历史地位: 将网络深度从几十层推向了 1000+ 层。它是目前工业界应用最广、最稳定的骨干网络(Backbone)。

硬件联系:由于残差连接的存在,硬件在处理时需要额外的缓存(Buffer)来暂存 x 的值,这给片上存储的设计提出了挑战。

MobileNet / ShuffleNet (2017+)

  • 变迁背景: 自动驾驶、手机端不需要 ResNet 那么重的模型,它们需要"轻量化"。
  • 深度可分离卷积(Depthwise Separable Conv): 将标准卷积拆分为两步,计算量直接下降到原来的 1/9 左右。
相关推荐
组合缺一几秒前
Solon AI Harness 首次发版
java·人工智能·ai·llm·agent·solon
星幻元宇VR3 分钟前
VR环保学习机|开启沉浸式环保教育新时代
大数据·人工智能·科技·安全·vr·虚拟现实
海兰13 分钟前
【实战】HiMarket本地化部署指南
人工智能·ubuntu·架构·银行系统
zhangshuang-peta16 分钟前
MCP:把不确定性变成工程能力
人工智能·ai agent·mcp·peta
m0_5648768426 分钟前
提示词工程手册学习
人工智能·python·深度学习·学习
AI精钢1 小时前
谷歌时隔一年发布“更加开源“的 Gemma 4,意图何为?
人工智能·云原生·开源·aigc
洞见新研社1 小时前
从算力到电力,谁在搭建AI时代的“能源基座”?
人工智能·能源
小程故事多_801 小时前
自然语言智能体控制框架,重塑AI Agent的协作与执行范式
人工智能·架构·aigc·ai编程·harness
2501_933329551 小时前
技术深度拆解:Infoseek舆情系统的全链路架构与核心实现
开发语言·人工智能·分布式·架构
aosky1 小时前
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统
人工智能·tts