每天五分钟计算机视觉:ImageNet大赛的世界冠军AlexNet模型

AlexNet模型

2012 Imagenet 比赛第一,Top5准确度超出第二10% ,它让人们认识到了深度学习技术的威力。比 LeNet更深,用多层小卷积层叠加替换大卷积层,就是说每一个卷积层的通道数小,不像LeNet一样每个卷积层的通道数很大。

AlexNet

一张227×227×3的图片作为输入,第一层我们使用 96 个11×11 的过滤器,步幅为 4,由于步幅是 4,因此尺寸缩小到 55×55,缩小了 4 倍左右。

然后用一个 3×3 的过滤器构建最大池化层, = 3,步幅为 2,卷积层尺寸缩小为 27×27×96。接着再执行一个 5×5 的卷积,padding 之后,输出是 27×27×276。

然后再次进行最大池化,尺寸缩小到 13×13。再执行一次 same 卷积,相同的 padding,得到的结果是 13×13×384,384个过滤器。再做一次 same 卷积,就像这样。

再做一次同样的操作,最后再进行一次最大池化,尺寸缩小到 6×6×256。

6×6×256 等于 9216,将其展开为 9216 个单元,然后是一些全连接层。

最后使用 softmax 函数输出识别的结果,看它究竟是 1000 个可能的对象中的哪一个。

AlexNet 包含约 6000 万个参数。当用于训练图像和数据集时,AlexNet 能够处理非常相似的基本构造模块,这些模块往往包含着大量的隐藏单元或数据,这一点 AlexNet 表现出色。AlexNet 比 LeNet 表现更为出色的另一个原因是它使用了 ReLu 激活函数。

相关推荐
java_logo6 分钟前
Docker 部署 MinerU 教程:打造你的本地 PDF 智能处理中心
linux·运维·人工智能·docker·ai·容器·aigc
做运维的阿瑞10 分钟前
鸿蒙6.0技术解析:五大行业迎来的智能化革命
人工智能·harmonyos
__星辰大海__13 分钟前
相机成像中的平行平面成像
计算机视觉·相机
双向3313 分钟前
技术引领场景革新|合合信息PRCV论坛聚焦多模态文本智能前沿实践
人工智能
飞翔的佩奇16 分钟前
【完整源码+数据集+部署教程】【运动的&足球】足球比赛分析系统源码&数据集全套:改进yolo11-RFAConv
前端·python·yolo·计算机视觉·数据集·yolo11·足球比赛分析系统
孤狼灬笑20 分钟前
自然语言处理(NLP)—发展历程(背景、技术、优缺点、未来方向)
人工智能·自然语言处理·nlp
特拉熊20 分钟前
Windows上使用Docker Desktop部署GPUStack
人工智能·程序员
LLM大模型21 分钟前
DeepSeek V3.2 AI辅助-构建可视化多维知识立方体展示知识体系
人工智能
Zyx200721 分钟前
用 OpenAI SDK 快速搭建你的第一个 AIGC 应用:从零开始生成文本
人工智能·node.js
大模型知识官22 分钟前
一位淘宝工程同学的大模型LoRA微调尝试
人工智能