卷积神经网络(CNN)

卷积神经网络（CNN）是一种能自动从图片中"找特征、提规律"的深度学习模型，它让计算机第一次真正具备了"看懂图像"的能力，并成为图像识别、目标检测、图像分割等任务的绝对主力模型。

假设我们要做一件简单的事------让模型识别猫和狗。

最早的深度学习靠 全连接（MLP），但用它处理图像有个致命缺点：

➡️ 太大、太慢，而且完全不利用图像结构信息

图像是"局部相关"的，全连接却假装所有像素与所有像素都一样重要，这是低效且不符合常识的。

于是------CNN出现了。

卷积核（Kernel）就像一个可学习的"滤镜"，它在图像上滑动，对局部区域提取特征。

比如 3×3 卷积核：

复制代码

  [1, 0, -1
   1, 0, -1
   1, 0, -1]   → 可以提取竖直边缘

当它在图像上滑过时，就像 PS 滤镜一样，突出某类信息、抑制无关细节。

你可以把卷积层理解为："让模型学会自己找图像特征的放大镜与探照灯"

特性	作用
局部感受野（Local Receptive Field）	卷积只关注小区域，符合图像"局部关联性"
权值共享（Weight Sharing）	同一卷积核扫整张图→参数数量从亿级降到万级

➡️ 既快、又准、又省内存，这就是CNN碾压MLP的根本原因

Pooling（最大池化/平均池化）做两件事：

作用	直观理解
降采样	缩小特征图尺寸，减少计算
保留显著特征	最大池化 = "只留下最突出的纹理信号"

就像我们看风景------不会纠结每一片树叶的像素，而关注形状与轮廓。

一张图片经过 CNN，大致流程是：

复制代码

输入图像 → 卷积层（提特征）
       → 激活层 ReLU（增强非线性）
       → 池化层（压缩信息）
       → 多层卷积叠加（提更高级语义）
       → 全连接/分类层（输出结果）

层数越深，语义越高级：

这也是为什么 CNN 会被称为**"从像素到语义的自动特征提取器"**

一句话总结：

LeNet 开始 → AlexNet 崛起 → VGG 规范结构 → ResNet 引爆深层时代

原因很简单：

➡️ CNN更符合"看图"这件事的本质规律

几乎所有视觉任务，CNN 都有一席之地。

本篇你需要记住三句话：