pytorch与深度学习随记——AlexNet

AlexNet和LeNet的设计理念非常相似,但也存在显著差异:

基本结构对比

  1. 网络深度:AlexNet比LeNet-5要深得多,AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
  2. 激活函数:AlexNet使用ReLU而不是sigmoid作为其激活函数,这有助于缓解梯度消失问题并加速训练过程。

AlexNet架构的创新点

  1. 局部响应归一化(LRN):AlexNet引入LRN层,可以创建一种"侧抑制"机制,增强模型的泛化能力。
  2. Dropout技术:在全连接层使用Dropout(概率为0.5),有效减轻过拟合问题。

架构细节分析

  1. 大卷积核尺寸:第一层使用11×11的大卷积核,步长为4,有助于捕捉更大范围的图像特征。
  2. 通道数量:AlexNet的通道数远大于LeNet,第一层就有96个过滤器,显著增强了特征提取能力。
  3. 池化层设计:使用重叠最大池化(kernel_size=3, stride=2),提高了特征的鲁棒性。
  4. 连续卷积层:中间使用三个连续的卷积层而无池化层,可以学习更复杂的特征表示。

pytorch代码实现

python 复制代码
net = nn.Sequential(
    # 第一层:大卷积核(11×11)捕捉宏观特征,步幅4减少计算量,96个通道提取丰富特征
    # 另外,输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第二层:中等卷积核(5×5),使用padding=2保持特征图尺寸,增加到256通道
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第三至五层:连续的小卷积核(3×3)层,捕捉细节特征
    # 通道数先增加后减少(256→384→384→256),形成"金字塔"结构
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 展平后连接全连接层,大幅减少参数(6400→4096→4096→1000)
    nn.Flatten(),
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),  # 防止过拟合
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 1000)  # 输出层
)

AlexNet历史意义

  1. 深度学习复兴:2012年AlexNet在ImageNet竞赛中以显著优势获胜,标志着深度学习在计算机视觉领域的突破。
  2. CNN领域里程碑:证明了深层CNN在大规模视觉识别任务中的有效性,为后续的VGG、GoogLeNet等网络奠定了基础。

应用领域

  1. 图像分类:在ImageNet上取得了15.3%的top-5错误率,比第二名低了约10个百分点。
  2. 迁移学习:预训练的AlexNet模型可用于其他视觉任务的特征提取器。

尽管AlexNet架构已经相对较久远,但其在AI教育等方面仍有重要意义

相关推荐
聚客AI1 分钟前
PyTorch玩转CNN:卷积操作可视化+五大经典网络复现+分类项目
人工智能·pytorch·神经网络
程序员岳焱4 分钟前
深度剖析:Spring AI 与 LangChain4j,谁才是 Java 程序员的 AI 开发利器?
java·人工智能·后端
Q同学5 分钟前
TORL:工具集成强化学习,让大语言模型学会用代码解题
深度学习·神经网络·llm
柠檬味拥抱6 分钟前
AI智能体在金融决策系统中的自主学习与行为建模方法探讨
人工智能
禺垣6 分钟前
图神经网络(GNN)模型的基本原理
深度学习
智驱力人工智能16 分钟前
智慧零售管理中的客流统计与属性分析
人工智能·算法·边缘计算·零售·智慧零售·聚众识别·人员计数
workflower34 分钟前
以光量子为例,详解量子获取方式
数据仓库·人工智能·软件工程·需求分析·量子计算·软件需求
壹氿38 分钟前
Supersonic 新一代AI数据分析平台
人工智能·数据挖掘·数据分析
柠石榴41 分钟前
【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》
论文阅读·笔记·深度学习·nlp·text-to-sql
张较瘦_1 小时前
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析
论文阅读·人工智能