【跟马少平老师学AI】-【神经网络是怎么实现的】(五)梯度消失问题

一句话归纳:
1)用sigmoid激活函数时,BP算法更新公式为:

用sigmoid函数,O取值为0~1,O(1-O)最大值为0.25,若神经网络层数多,则会造成更新项趋近于0,称为梯度消失。

2)GooLeNet解决梯度消失的问题:

  • 在不同的深度构造了3个输出。
  • inception模块:
  • 其中,1*1卷积起到改变维度的作用,减少参数个数,比如,输入为192个通道,经过32个1*1卷积核运算,即可以将通道数降为32。

3)神经网络并不完全随着深度的增加提高正确率。

4)残差网络(ResNet):

残差块:

  • 通过恒等映射,梯度无衰减传递,消除梯度消失。
  • 解决网络退化问题。
  • 虚线恒等映射,在恒等映射的基础上,加个卷积层,以和F(X)同等大小、同样通道数的映射。
  • 全局平均池化层,经过池化,每个通道变成一个平均数。
相关推荐
2501_933329555 小时前
媒介宣发技术实践:Infoseek舆情系统的AI中台架构与应用解析
开发语言·人工智能·架构·数据库开发
热爱生活的五柒6 小时前
026主流三大模型(GPT / Gemini / Claude Code)总结
人工智能·gpt
DuHz6 小时前
论文精读:大语言模型 (Large Language Models, LLM) —— 一项调查
论文阅读·人工智能·深度学习·算法·机器学习·计算机视觉·语言模型
AI木马人6 小时前
9.【AI任务队列实战】如何在高并发下保证系统不崩?(Redis + Celery完整方案)
数据库·人工智能·redis·神经网络·缓存
陈天伟教授6 小时前
GPT Image 2-桂林山水
人工智能·神经网络·安全·架构
offer收割机小鹅6 小时前
大学生求职必备:AI面试、AI写作与设计工具助力职场发展
人工智能·ai·面试·aigc·ai写作
乔江seven6 小时前
【李沐 | 动手学深度学习】20 计算机视觉:数据增广(Data Augmentation)
人工智能·深度学习
冬奇Lab7 小时前
Claude Code 接入 SonarQube 静态扫描:AI 写代码,质量闭环了
人工智能·ai编程·claude
冬奇Lab7 小时前
一天一个开源项目(第84篇):free-claude-code —— 零费用运行 Claude Code 的代理黑魔法
人工智能·开源·claude
泡泡茶壶ᐇ7 小时前
个人网站构建完全指南:从功能规划到技术实现与AI辅助开发
人工智能