GoogLeNet的不同版本

  • GoogLeNet 致敬 LeNet

GoogLeNet V1

  • Inception块,增加网络宽度,在卷积操作时可以提取不同尺度特征
  • 利用1×1卷积进行降维,减少参数量
  • 参数量计算:上一层通道数 × 卷积层的长度^2 × 下一层通道数
  • 采用模块化结构Stage
  • 最后进行全局平均池化average pooling能让输入图像大小不用固定
  • 辅助分类器,为训练提供更多梯度信息
  • 将网络模块化三个阶段,每个阶段内部feature map不变,结束后下降样到下个stage,这种模式在后面经常出现,如:resnet,mobilenet,shufflenet等

GoogLeNet V2

  • BatchNormalization(BN):数据归一化,对每个训练的mini-batch做归一化
    • BN使得模型可以使用较大的学习率而不用特别关心诸如梯度爆炸或消失等优化问题;
    • 降低了模型效果对初始权重的依赖;
    • 可以加速收敛,一定程度上可以不使用Dropout这种降低收敛速度的方法,但却起到了正则化作用,提高了模型泛化性;
    • 即使不使用ReLU也能缓解激活函数饱和问题;
    • 能够学习到从当前层到下一层的分布缩放(scaling(方差),shift(期望))系数
  • 问题
    • 网络训练过程中不止学习本层数据,而且要适应上层的分布,这里相当于规定了同一的输入格式,减少适应上层分布的过程。
  • 解决方法:将输入值减均值除上方差,z值化。

GoogLeNet V3

  • 贡献:
    • 提出通用的网络结构设计准则
    • 引入卷积分解提高效率(空间可分离卷积)
    • 引入高效的feature map降维
    • 平滑样本标注
  • 准则:
    • 避免特征表示上的瓶颈,尤其在神经网络的前若干层。(慎用)
      • 如果在网络的浅层35×35×320被降维到17×17×320,会丢失大量信息,后面不可逆。所以对feature map进行降维的同时会对channel进行升维。
    • 特征的数目越多收敛越快(不怎么流行)
      • 增加1×3和3×1激活输出,产生相互解耦的特征表示。
    • 合理压缩特征维度数(通道数),来减少计算量
      • 用1×1的卷积先降维,再特征提取,相邻通道信息比较像
    • 网络的深度和宽度需要等比例的放大和缩小
      • 没有具体给出指导,后期EfficientNet(V1,V2)才填了这个坑
    • "优化"辅助分类器
      • 去掉了
    • 优化池化操作
      • 并行做卷积和池化,然后再合并
    • 优化标签
      • 将one hot标签平滑一点
      • (1-label_smoothing)*one_hot_labels+label_smoothing/num_classes
      • label_smothing = 0.1
      • num_classes = 1000

GoogLeNet V4(不流行,太复杂而且没意义)

  • 以结果为导向,网络解释性不强。
  • 但是融合了残差网络
  • 缺点:人为赋予了模型大量的先验知识

GoogLeNet V5(很简单)

  • Xception
  1. 1×1卷积核在通道维度上进行相乘求和,3*3卷积核在空间维度上做信息处理
  2. 普通卷积同时在通道和空间上进行处理,普通的卷积核是三维的
  3. 先做通道上处理,后做空间上处理
  4. 解耦精度更高,计算量更小
    补充:
  • 如果训练的网络结果不好,不一定是网络结构不好,有可能是超参数不好。如梯度弥散
  • 模型自己学习到的知识比人为赋予的归纳偏置上限更高
  • 古人诚不欺我:大道至简
相关推荐
AndrewHZ14 分钟前
【图像处理基石】GIS图像处理入门:4个核心算法与Python实现(附完整代码)
图像处理·python·算法·计算机视觉·gis·cv·地理信息系统
掘金安东尼18 分钟前
Google+禁用“一次性抓取100条搜索结果”,SEO迎来变革?
人工智能
FIN666825 分钟前
射频技术领域的领航者,昂瑞微IPO即将上会审议
前端·人工智能·前端框架·信息与通信
小麦矩阵系统永久免费35 分钟前
短视频矩阵系统哪个好用?2025最新评测与推荐|小麦矩阵系统
大数据·人工智能·矩阵
Mr.Lee jack37 分钟前
【vLLM】源码解读:高性能大语言模型推理引擎的工程设计与实现
人工智能·语言模型·自然语言处理
IT_陈寒1 小时前
Java性能优化:这5个Spring Boot隐藏技巧让你的应用提速40%
前端·人工智能·后端
MicroTech20251 小时前
微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术
人工智能·科技·算法
喜欢吃豆1 小时前
多轮智能对话系统架构方案(可实战):从基础模型到自我优化的对话智能体,数据飞轮的重要性
人工智能·语言模型·自然语言处理·系统架构·大模型·多轮智能对话系统
文火冰糖的硅基工坊1 小时前
[嵌入式系统-83]:算力芯片的类型与主流架构
人工智能·重构·架构
视觉语言导航3 小时前
ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航
人工智能·机器人·具身智能