深度学习笔记:卷积神经网络(CNN)演进与PyTorch构建模型基础

一、卷积神经网络(CNN)的演进

1. LeNet:卷积神经网络的起点

LeNet-5 是早期成功的卷积神经网络之一,用于手写数字识别。其结构分为两部分:

卷积编码器:两个卷积层,使用5×5卷积核和Sigmoid激活函数。

全连接层:三个全连接层用于分类。

LeNet 奠定了CNN的基本结构:卷积层 + 池化层 + 全连接层。

2. 表示学习与视觉分层理论

CNN 的核心思想是表示学习,即通过网络自动学习特征表示,从底层到高层逐步抽象:

底层特征:边缘、颜色、斑块

中层特征:条纹、纹理、形状

高层特征:眼睛、轮胎、文字等语义特征

3. AlexNet:深度学习的里程碑

AlexNet 在2012年ImageNet竞赛中获胜,标志着深度学习在计算机视觉中的崛起。其主要改进包括:

使用 ReLU激活函数(缓解梯度消失)

引入 Dropout(防止过拟合)

使用 最大池化层数据增强技术提升泛化能力

AlexNet 结构比LeNet更深,包含5个卷积层和3个全连接层。

4. VGG:更深的网络与模块化设计

VGG 通过堆叠多个3×3卷积层2×2最大池化层构建更深网络,如VGG-16、VGG-19。其核心思想是:

使用小卷积核堆叠代替大卷积核(减少参数量)

模块化设计(VGG块)便于构建深层网络

二、PyTorch神经网络工具箱基础

1. 核心组件:nn.Modulenn.functional

PyTorch 提供两种主要方式构建神经网络:

nn.Module:

继承自 nn.Module 的类(如 nn.Linear, nn.Conv2d

自动管理参数(weight, bias)

可与 nn.Sequential 结合使用

支持训练/测试状态切换(如Dropout)

nn.functional:

函数式接口(如 F.relu, F.max_pool2d

需手动传入参数,不利于复用

适用于无状态操作(如激活函数、池化)

2. 三种构建模型的方式

继承 nn.Module 基类:

最灵活的方式,可自定义前向传播逻辑。

使用 nn.Sequential:

按顺序堆叠层,支持三种写法:

直接传入层列表(无名)

使用 add_module 添加命名层

使用 OrderedDict 指定每层名称

使用模型容器:

nn.ModuleList:存储子模块,支持迭代

nn.ModuleDict:通过名字访问子模块

3. 自定义网络模块示例:残差块

残差块有两种形式:

直接相加输入与输出(需形状一致)

通过1×1卷积调整通道数后再相加

这些模块可组合成现代网络如 ResNet

三、总结

从LeNet到VGG,CNN通过更深的结构更好的激活函数正则化技术模块化设计 不断提升性能。而在PyTorch中,我们可以通过 nn.Modulenn.Sequential 等工具灵活构建这些网络结构,实现从理论到实践的无缝衔接。

相关推荐
冷雨夜中漫步5 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
yLDeveloper7 小时前
从模型评估、梯度难题到科学初始化:一步步解析深度学习的训练问题
深度学习
Coder_Boy_7 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
Gain_chance7 小时前
34-学习笔记尚硅谷数仓搭建-DWS层最近一日汇总表建表语句汇总
数据仓库·hive·笔记·学习·datagrip
2401_836235868 小时前
中安未来SDK15:以AI之眼,解锁企业档案的数字化基因
人工智能·科技·深度学习·ocr·生活
njsgcs8 小时前
llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体
人工智能·深度学习
2的n次方_9 小时前
CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制
深度学习·架构·transformer
人工智能培训9 小时前
具身智能视觉、触觉、力觉、听觉等信息如何实时对齐与融合?
人工智能·深度学习·大模型·transformer·企业数字化转型·具身智能
Gain_chance9 小时前
36-学习笔记尚硅谷数仓搭建-DWS层数据装载脚本
大数据·数据仓库·笔记·学习
肖永威9 小时前
macOS环境安装/卸载python实践笔记
笔记·python·macos