深度学习----------------------深度卷积神经网络AlexNet

目录

AlexNet网络


加入了丢弃法
从激活函数sigmoid改为了ReLu
LeNet主要用的是平均池化,而AlexNet取的是MaxPooling

丢弃法 是为了进行模型的控制(因为模型更大了,所以用丢弃法做一些正则)

ReLu是比sigmoid梯度更大

MaxPooling取最大值,使得输出值比较大,梯度相对来说比较大,使得训练更加容易一点。


AlexNet架构



通道数从6变成了96
Pad=2是为了让输入和输出的尺寸是一样的。

更多细节

激活函数从sigmoid变到了ReLu(减缓梯度消失)
隐藏全连接层后加入了丢弃层
数据增强


总结

①AlexNet是更大更深的LeNet,比LeNet多10倍的参数个数,多260倍的计算复杂度。

②新加入了丢弃法,ReLU,最大池化层和数据增强。


深度卷积神经网络(AlexNet)代码

powershell 复制代码
import torch
from torch import nn
from d2l import torch as d2l
 
net = nn.Sequential(

    # 输出通道的数目远大于LeNet
    # 输入通道为1,输出通道为96,卷积核大小为11×11,步长为4,填充为1
    # 使用了一个相对较大的卷积核来捕捉图像中的大尺度特征,并通过较大的步长来减少输出的空间维度(高度和宽度)。
    # 填充用于保持输出的空间维度不会因卷积操作而急剧减小。
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    # 通过最大池化来进一步减少输出的空间维度
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道,256为输出通道数
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    # 除了最后的卷积层,输出通道的数量进一步增加。
    # 在前两个卷积层之后,池化层不用于减少输入的高度和宽度
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Flatten(),
    # 这里,全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000
    nn.Linear(4096, 10))

为什么变成6400了
这里的高度和宽度变为了5,由步长一步一步变小的。这里使用Flatten展为1维,则256×5×5=6400

我们构造一个高度宽度 都为224的(单通道数据,来观察每一层输出的形状)。

python 复制代码
X = torch.randn(1, 1, 224, 224)
for layer in net:
    X=layer(X)
    print(layer.__class__.__name__,'output shape:\t',X.shape)

结果:

AlexNet直接应用于Fashion-MNIST的一个问题是,Fashion-MNIST图像的分辨率28×28 像素 )(低于ImageNet图像。) 为了解决这个问题,(我们将它们增加到 224×224 )(通常来讲这不是一个明智的做法,但在这里这样做是为了有效使用AlexNet架构)。这里需要使用d2l.load_data_fashion_mnist函数中的resize参数执行此调整

python 复制代码
batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

训练AlexNet

python 复制代码
import time
 
lr, num_epochs = 0.01, 10
time1 = time.time()
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
time2 = time.time()

这里使用GPU跑,CPU可能跑不动,之前跑过一个跑了很久没跑出来。

结果:


问题

①为什么AlexNet最后要有两个相同的全连接层Dense(4096)?一个行吗?
一个不行,一个效果会差,4096×4096的全连接层是一个非常厉害的模型。因为前面的卷积的特征抽的不够好、不够深,所以后面靠两个Dense来补,有一个效果会变差。

②在一个识别细胞的程序里做了颜色+几何变换的增强后效果反倒比只做几何变化的增强效果差。这个可能是因为什么?
很正常的事情,这是一个超参数,调参是一个很辛苦的过程。

相关推荐
DeepBI2 分钟前
AI+大数据:DeepBI重构竞品分析新思路
人工智能
KoiC3 分钟前
内网环境部署Deepseek+Dify,构建企业私有化AI应用
linux·人工智能·ubuntu·docker·大模型·ai应用·deepseek
程序员Linc14 分钟前
计算机视觉 vs 机器视觉 | 机器学习 vs 深度学习:核心差异与行业启示
深度学习·机器学习·计算机视觉·机器视觉
不去幼儿园14 分钟前
【启发式算法】Dijkstra算法详细介绍(Python)
人工智能·python·算法·机器学习·启发式算法·图搜索算法
云卓SKYDROID24 分钟前
无人机投屏技术解码过程详解!
人工智能·5g·音视频·无人机·科普·高科技·云卓科技
zy_destiny31 分钟前
【YOLOv12改进trick】三重注意力TripletAttention引入YOLOv12中,实现遮挡目标检测涨点,含创新点Python代码,方便发论文
网络·人工智能·python·深度学习·yolo·计算机视觉·三重注意力
自由的晚风33 分钟前
深度学习在SSVEP信号分类中的应用分析
人工智能·深度学习·分类
大数据追光猿33 分钟前
【大模型技术】LlamaFactory 的原理解析与应用
人工智能·python·机器学习·docker·语言模型·github·transformer
Start_Present1 小时前
Pytorch 第七回:卷积神经网络——VGG模型
pytorch·python·神经网络·cnn·分类算法
玩电脑的辣条哥1 小时前
大模型LoRA微调训练原理是什么?
人工智能·lora·微调