【第五章:计算机视觉】1.计算机视觉基础-(3)卷积神经网络核心层与架构分析:卷积层、池化层、归一化层、激活层

第五章:计算机视觉(Computer Vision)

第一部分:计算机视觉基础

第三节:卷积神经网络核心层与架构分析:卷积层、池化层、归一化层、激活层


一、引言

卷积神经网络(Convolutional Neural Network, CNN)是计算机视觉领域的里程碑性突破。其核心思想是利用卷积操作提取图像的局部特征,并逐层组合为高层语义特征。CNN 已成为图像分类、目标检测、语义分割等任务的主流架构。

CNN 的强大之处在于 层次化特征学习

  • 低层:学习边缘、角点等基础特征。

  • 中层:学习纹理、局部形状。

  • 高层:学习复杂物体的语义信息。

要理解 CNN,需要深入认识它的核心层:卷积层、池化层、归一化层、激活层。


二、卷积层(Convolutional Layer)

1. 定义

卷积层是 CNN 的核心。它通过滑动 卷积核(Filter) 在输入特征图上执行卷积运算,提取局部特征。

数学表达式:

  • x:输入像素或特征图

  • w:卷积核权重

  • b:偏置

  • :输出特征图(Feature Map)上的一个值

2. 特点
  • 局部感受野:卷积核只关注局部区域,逐步组合成全局特征。

  • 参数共享:同一个卷积核在整张图上滑动,大大减少参数量。

  • 稀疏连接:每个输出值只依赖输入的局部区域。

3. 作用

提取图像的边缘、纹理、形状等特征。


三、池化层(Pooling Layer)

1. 定义

池化层用于下采样,减少特征图尺寸,同时保留关键信息。

常见方法:

  • 最大池化(Max Pooling):取窗口内的最大值。

  • 平均池化(Average Pooling):取窗口内的平均值。

2. 数学表示

其中 kk 表示池化窗口大小。

3. 作用
  • 降低特征图维度,减少计算量。

  • 提高模型对平移、缩放等变化的鲁棒性。


四、归一化层(Normalization Layer)

归一化操作能加速训练、提高模型稳定性。

1. 常见方法
  • 批量归一化(Batch Normalization, BN)

    对每一批数据在通道维度上做归一化:

    ,

    • μ:均值

    • σ:标准差

    • γ,β:可学习参数

  • 层归一化(Layer Normalization, LN):对每个样本的所有特征归一化,常用于 NLP。

  • 组归一化(Group Normalization, GN):在通道维度上分组归一化,适合小批量训练。

2. 作用
  • 缓解梯度消失与爆炸问题。

  • 提高训练速度与收敛效果。


五、激活层(Activation Layer)

激活函数引入非线性,使神经网络能学习复杂模式。

常见激活函数:
  1. Sigmoid

缺点:梯度消失。

  1. ReLU (Rectified Linear Unit)

优点:计算简单,收敛快。

  1. Leaky ReLU

缓解 ReLU 死亡问题。

  1. Softmax

    用于分类任务输出概率分布。


六、典型 CNN 架构

一个典型 CNN 网络结构如下:

复制代码
输入图像 → 卷积层 + 激活层 → 卷积层 + 激活层 → 池化层 → 
卷积层 + 激活层 → 池化层 → 全连接层 → Softmax 输出

经典模型实例:

  • LeNet-5 (1998):手写数字识别

  • AlexNet (2012):ImageNet 竞赛冠军,掀起深度学习浪潮

  • VGGNet (2014):使用更深的卷积层堆叠

  • ResNet (2015):引入残差结构,解决梯度消失问题


七、总结

  • 卷积层:提取局部特征,参数共享。

  • 池化层:降低维度,增强鲁棒性。

  • 归一化层:稳定训练,加速收敛。

  • 激活层:引入非线性,提升表达能力。

这四类核心层共同构成了 CNN 的基本单元,使其能够在图像理解任务中表现出色。

相关推荐
小鸡吃米…4 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫4 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)5 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan5 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维5 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS5 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd5 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟6 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然6 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~6 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1