pytorch与深度学习随记——AlexNet

AlexNet和LeNet的设计理念非常相似,但也存在显著差异:

基本结构对比

  1. 网络深度:AlexNet比LeNet-5要深得多,AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
  2. 激活函数:AlexNet使用ReLU而不是sigmoid作为其激活函数,这有助于缓解梯度消失问题并加速训练过程。

AlexNet架构的创新点

  1. 局部响应归一化(LRN):AlexNet引入LRN层,可以创建一种"侧抑制"机制,增强模型的泛化能力。
  2. Dropout技术:在全连接层使用Dropout(概率为0.5),有效减轻过拟合问题。

架构细节分析

  1. 大卷积核尺寸:第一层使用11×11的大卷积核,步长为4,有助于捕捉更大范围的图像特征。
  2. 通道数量:AlexNet的通道数远大于LeNet,第一层就有96个过滤器,显著增强了特征提取能力。
  3. 池化层设计:使用重叠最大池化(kernel_size=3, stride=2),提高了特征的鲁棒性。
  4. 连续卷积层:中间使用三个连续的卷积层而无池化层,可以学习更复杂的特征表示。

pytorch代码实现

python 复制代码
net = nn.Sequential(
    # 第一层:大卷积核(11×11)捕捉宏观特征,步幅4减少计算量,96个通道提取丰富特征
    # 另外,输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第二层:中等卷积核(5×5),使用padding=2保持特征图尺寸,增加到256通道
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第三至五层:连续的小卷积核(3×3)层,捕捉细节特征
    # 通道数先增加后减少(256→384→384→256),形成"金字塔"结构
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 展平后连接全连接层,大幅减少参数(6400→4096→4096→1000)
    nn.Flatten(),
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),  # 防止过拟合
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 1000)  # 输出层
)

AlexNet历史意义

  1. 深度学习复兴:2012年AlexNet在ImageNet竞赛中以显著优势获胜,标志着深度学习在计算机视觉领域的突破。
  2. CNN领域里程碑:证明了深层CNN在大规模视觉识别任务中的有效性,为后续的VGG、GoogLeNet等网络奠定了基础。

应用领域

  1. 图像分类:在ImageNet上取得了15.3%的top-5错误率,比第二名低了约10个百分点。
  2. 迁移学习:预训练的AlexNet模型可用于其他视觉任务的特征提取器。

尽管AlexNet架构已经相对较久远,但其在AI教育等方面仍有重要意义

相关推荐
wuk9983 分钟前
基于Matlab的彩色图像特征提取实现
人工智能·计算机视觉·matlab
GEO_NEWS8 分钟前
2025下半年GEO服务商技术革命:万数科技以AI全链路优化定义行业标杆
人工智能
说私域15 分钟前
智能名片链动2+1模式S2B2C商城小程序:构建私域生态“留”量时代的新引擎
大数据·人工智能·小程序
说私域17 分钟前
基于开源AI大模型与AI智能名片S2B2C商城小程序的直播简介引流策略研究——以B站直播为例
人工智能·小程序
金紫火25 分钟前
AiPPT 新功能体验:从“一键生成”到更智能的演示制作
人工智能·ppt
Dev7z27 分钟前
基于计算机视觉与机器学习的课堂坐姿智能监测与预警系统
人工智能·机器学习·计算机视觉
水如烟34 分钟前
孤能子视角:“多劳多得”原则在知识经济时代的失效危机分析
人工智能
钟屿35 分钟前
Back to Basics: Let Denoising Generative Models Denoise 论文阅读学习
论文阅读·人工智能·笔记·学习·计算机视觉
张较瘦_37 分钟前
[论文阅读] AI + 数据库 | 拆解智能数据库:交互、管理、内核三层革新,AI 如何重塑数据处理
数据库·论文阅读·人工智能
深兰科技1 小时前
智融无界·浦绘未来|深兰科技受邀出席“2025浦东新区产业智能化创新发展年度活动”,陈海波发表主旨演讲
人工智能·jupyter·vim·intellij-idea·postman·visual studio·深兰科技