每天五分钟计算机视觉:ImageNet大赛的世界冠军AlexNet模型

AlexNet模型

2012 Imagenet 比赛第一,Top5准确度超出第二10% ,它让人们认识到了深度学习技术的威力。比 LeNet更深,用多层小卷积层叠加替换大卷积层,就是说每一个卷积层的通道数小,不像LeNet一样每个卷积层的通道数很大。

AlexNet

一张227×227×3的图片作为输入,第一层我们使用 96 个11×11 的过滤器,步幅为 4,由于步幅是 4,因此尺寸缩小到 55×55,缩小了 4 倍左右。

然后用一个 3×3 的过滤器构建最大池化层, = 3,步幅为 2,卷积层尺寸缩小为 27×27×96。接着再执行一个 5×5 的卷积,padding 之后,输出是 27×27×276。

然后再次进行最大池化,尺寸缩小到 13×13。再执行一次 same 卷积,相同的 padding,得到的结果是 13×13×384,384个过滤器。再做一次 same 卷积,就像这样。

再做一次同样的操作,最后再进行一次最大池化,尺寸缩小到 6×6×256。

6×6×256 等于 9216,将其展开为 9216 个单元,然后是一些全连接层。

最后使用 softmax 函数输出识别的结果,看它究竟是 1000 个可能的对象中的哪一个。

AlexNet 包含约 6000 万个参数。当用于训练图像和数据集时,AlexNet 能够处理非常相似的基本构造模块,这些模块往往包含着大量的隐藏单元或数据,这一点 AlexNet 表现出色。AlexNet 比 LeNet 表现更为出色的另一个原因是它使用了 ReLu 激活函数。

相关推荐
Better Bench3 分钟前
【大模型RAG安全基准】安装和使用SafaRAG框架
网络·人工智能·安全·大模型·组件·rag
大千AI助手4 分钟前
差分隐私:机器学习和数据发布中的隐私守护神
人工智能·神经网络·机器学习·dp·隐私保护·差分隐私·大千ai助手
R-G-B5 分钟前
【P27 回归算法及应用实践】有监督的机器学习、分类与回归、一元线性回归、最小二乘法、多元回归与梯度下降、学习率
人工智能·回归·最小二乘法·梯度下降·一元线性回归·有监督的机器学习·分类与回归
程序员小赵同学5 分钟前
Spring AI Alibaba语音合成实战:从零开始实现文本转语音功能
人工智能·spring·语音识别
禁默13 分钟前
第四届图像处理、计算机视觉与机器学习国际学术会议(ICICML 2025)
图像处理·机器学习·计算机视觉
Dev7z16 分钟前
结合HOG特征与支持向量机(SVM)的车牌字符识别系统
人工智能·分类·数据挖掘
MaybeAI30 分钟前
Skill 与 Workflow:让自动化更“聪明”的系统架构
人工智能·ai·自动化·workflow·工作流
唯道行36 分钟前
计算机图形学·9 几何学
人工智能·线性代数·计算机视觉·矩阵·几何学·计算机图形学
Antonio91538 分钟前
【图像处理】tiff格式介绍
图像处理·人工智能
AndrewHZ42 分钟前
【图像处理基石】什么是alpha matting?
图像处理·人工智能·计算机视觉·matting·发丝分割·trimap·人像模式