【跟马少平老师学AI】-【神经网络是怎么实现的】(五)梯度消失问题

一句话归纳:
1)用sigmoid激活函数时,BP算法更新公式为:

用sigmoid函数,O取值为0~1,O(1-O)最大值为0.25,若神经网络层数多,则会造成更新项趋近于0,称为梯度消失。

2)GooLeNet解决梯度消失的问题:

  • 在不同的深度构造了3个输出。
  • inception模块:
  • 其中,1*1卷积起到改变维度的作用,减少参数个数,比如,输入为192个通道,经过32个1*1卷积核运算,即可以将通道数降为32。

3)神经网络并不完全随着深度的增加提高正确率。

4)残差网络(ResNet):

残差块:

  • 通过恒等映射,梯度无衰减传递,消除梯度消失。
  • 解决网络退化问题。
  • 虚线恒等映射,在恒等映射的基础上,加个卷积层,以和F(X)同等大小、同样通道数的映射。
  • 全局平均池化层,经过池化,每个通道变成一个平均数。
相关推荐
lili0012几秒前
CC GUI 插件架构剖析:如何为 JetBrains IDE 打造完整的 AI 编程工作台
java·ide·人工智能·python·架构·ai编程
沸点小助手14 分钟前
「妈,我真不是修电脑的」获奖名单公示|本周互动话题上新🎊
前端·人工智能
nix.gnehc18 分钟前
LangX实战:从Spring生态理解LLM应用开发
人工智能·langchain·langgraph·langfuse
一马平川的大草原18 分钟前
报告笔记--AI工程的文化研读记录及感悟
人工智能·笔记·读书笔记
小锋java123425 分钟前
【技术专题】Spring AI 2.0 - Advisors —— 拦截器模式增强AI能力
java·人工智能
纽格立科技30 分钟前
AI让广播过时,还是让广播稀缺?
大数据·服务器·人工智能·车载系统·信息与通信·传媒
一切皆是因缘际会34 分钟前
AI工程化落地指南:
大数据·人工智能·机器学习·架构
东方佑36 分钟前
观测的连续性:从波粒二象性诠释生成式 AI 中音视频与图像的表征范式
人工智能·音视频
迁旭36 分钟前
Claude Code Skill(技能)系统机制与运行原理报告
人工智能·机器学习·gpt-3·文心一言
小程故事多_801 小时前
从零复刻Claude Code,深度拆解Agent Harness工程化落地全逻辑
人工智能