卷积神经网络

一、基础认知

定义：专为处理网格结构数据（如图像、视频）设计的深度学习模型，模拟人类视觉系统的局部感知与层级整合机制，实现特征自动提取与任务预测。

核心思想：以 "局部特征提取→层级特征整合" 为核心，浅层捕捉边缘、纹理等低级特征，深层聚合为形状、对象等高级语义特征。

与全连接网络的区别：通过 "局部连接"（仅关注输入局部区域）和 "参数共享"（同一卷积核复用权重），解决全连接网络参数爆炸、丢失空间关联性的缺陷。
二、核心组件与原理

核心工具：卷积核（Filter），多为 3×3 或 5×5 小矩阵，每个对应一种特征（如边缘、角点）。

关键参数：步幅（卷积核滑动间隔，步幅 = 2 可减半特征图维度）；填充（边缘补零避免特征丢失，"Same 填充" 保尺寸，"Valid 填充" 无补零）。

主流选择：ReLU 函数（f(x)=max(0,x)），解决 Sigmoid 函数梯度消失问题，计算效率更高。

作用：使网络学习复杂非线性特征（如物体轮廓、语义关联）。

常见类型：最大池化（取局部最大值，保留关键特征）；平均池化（取局部平均值，平滑特征、减噪声）。

核心作用：降低特征图维度、减少计算量，增强模型对输入微小位移的鲁棒性。

将高维特征图展平为一维向量，通过加权连接整合特征，输出至分类 / 回归模块。
三、经典模型演进

LeNet-5（1989 年）：奠定 CNN 基础架构，由 2 个卷积层 + 3 个全连接层构成，采用 Sigmoid 激活函数。

AlexNet（2012 年）：推动 CNN 工业化应用，共 8 层深度，引入 ReLU 激活、重叠最大池化与丢弃法。

VGG：深化网络层级设计，通过多个 3×3 卷积核堆叠构建统一结构，增强特征提取能力。

ResNet：突破深度网络梯度消失瓶颈，借助残差连接（Shortcut）支持 152 层网络训练。
四、典型工作流程

输入预处理：将图像转换为三维张量（高 × 宽 × 通道，如 RGB 图像为 3 通道）。

特征提取：通过 "卷积层 + ReLU + 池化层" 堆叠，逐步生成高级特征图。

分类预测：全连接层整合特征，输出层经 Softmax 生成类别概率分布。
五、关键优势与应用

核心优势：参数共享减少计算量，平移不变性提升泛化能力，层级特征适配复杂视觉任务。

典型应用：图像分类（如 ImageNet 识别）、目标检测（如 YOLO）、图像分割（如 UNet）、人脸识别等。