【跟马少平老师学AI】-【神经网络是怎么实现的】(五)梯度消失问题

一句话归纳:
1)用sigmoid激活函数时,BP算法更新公式为:

用sigmoid函数,O取值为0~1,O(1-O)最大值为0.25,若神经网络层数多,则会造成更新项趋近于0,称为梯度消失。

2)GooLeNet解决梯度消失的问题:

  • 在不同的深度构造了3个输出。
  • inception模块:
  • 其中,1*1卷积起到改变维度的作用,减少参数个数,比如,输入为192个通道,经过32个1*1卷积核运算,即可以将通道数降为32。

3)神经网络并不完全随着深度的增加提高正确率。

4)残差网络(ResNet):

残差块:

  • 通过恒等映射,梯度无衰减传递,消除梯度消失。
  • 解决网络退化问题。
  • 虚线恒等映射,在恒等映射的基础上,加个卷积层,以和F(X)同等大小、同样通道数的映射。
  • 全局平均池化层,经过池化,每个通道变成一个平均数。
相关推荐
字节跳动视频云技术团队4 小时前
火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral
人工智能
谢景行^顾4 小时前
初识机器学习
人工智能
AI工具学习测评5 小时前
实测五款AI生成PPT工具,这款国产软件让我工作效率翻倍!
人工智能·powerpoint
Akamai中国5 小时前
提升 EdgeWorker 可观测性:使用 DataStream 设置日志功能
人工智能·云计算·云服务
桂花饼5 小时前
深度解析 Gemini 3 Pro Image (Nano Banana 2):Google 最强图像模型的核心能力与 API 对接指南
人工智能·aigc·ai绘图·nano banana 2·图像生成api·openai兼容接口·gemini 3 pro
阿里云大数据AI技术5 小时前
朝阳永续基于阿里云 Milvus 构建金融智能投研产品“AI 小二”
数据库·人工智能
中杯可乐多加冰5 小时前
基于 DeepSeek + MateChat 的证券智能投顾技术实践:打造金融领域的专属大Q模型助手
前端·人工智能
deephub5 小时前
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
人工智能·python·大语言模型·agent
算家计算5 小时前
DeepSeek开源IMO金牌模型!跑出数学推理新高度,你的算力准备好了吗?
人工智能·资讯·deepseek
Codebee5 小时前
SOLO+OODER全栈框架:图生代码与组件化重构实战指南
前端·人工智能