4.2.1 分类任务

4.2.1 分类任务

分类模型的核心结构包括:输入à特征提取(卷积层)à 分类决策(全连接层),代表模型如下。

* LeNet-5:卷积网络的基石,确定了CNN的架构范式,验证了CNN可行。

* AlexNet:承上启下的划时代模型,结构更深,引入ReLU和dropout。

* VGG:堆叠3×3小卷积核替代大卷积核,结构非常规整,探索增加网络深度。

* GoogLeNet:引入Inception模块在单一层内提取多个尺度特征,开创并行多分支网络结构,所用1×1卷积成为深度网络标准配置。

* ResNet:里程碑式的革命性模型,提出了残差学习范式,引入的快捷连接也成为现代深度网络的标配,使得网络可以达到上千层;ResNet及其变体至今仍是许多任务最常用的骨干网络。

1.结构特点

以上代表模型的核心结构特点是:(1)一系列的卷积层、池化层进行特征提取,(2)最后通过全局平均池化或者展平层连接全连接层,(3)输出层使用softmax函数输出每个类别的概率。

2.骨干网络

由于现代CNN模型结构已经基本形成"输入à 骨干网络à 分类器"这样一种范式,因此上述LeNet、AlexNet、VGG、GoogLeNet、ResNet都是骨干网络的杰出代表,它们的设计哲学例如堆叠小卷积核、残差连接、分组卷积等,影响了后续所有视觉任务模型。

相关推荐
阿里云大数据AI技术4 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12274 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队4 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇4 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师5 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶5 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术5 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher6 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员
zzzzzz3106 小时前
你的 AI 写的 React 烂透了?这个 8000+ Star 的开源工具能揪出 90% 的「Agent 屎山」
人工智能
小星AI6 小时前
MCP协议超详细教程,从入门到实战
人工智能