【跟马少平老师学AI】-【神经网络是怎么实现的】（五）梯度消失问题

垚焱焱2024-05-03 23:24

一句话归纳：
1）用sigmoid激活函数时，BP算法更新公式为：

用sigmoid函数，O取值为0~1，O(1-O)最大值为0.25，若神经网络层数多，则会造成更新项趋近于0，称为梯度消失。

2）GooLeNet解决梯度消失的问题：

在不同的深度构造了3个输出。
inception模块：

其中，1*1卷积起到改变维度的作用，减少参数个数，比如，输入为192个通道，经过32个1*1卷积核运算，即可以将通道数降为32。

3）神经网络并不完全随着深度的增加提高正确率。

4）残差网络（ResNet）：

残差块：

通过恒等映射，梯度无衰减传递，消除梯度消失。
解决网络退化问题。
虚线恒等映射，在恒等映射的基础上，加个卷积层，以和F(X)同等大小、同样通道数的映射。
全局平均池化层，经过池化，每个通道变成一个平均数。

上一篇：Messari 报告摘要：Covalent Network（CQT）2024 年第一季度表现

下一篇：简要说说软分叉和硬分叉。

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04ChatGPT 5发布日期揭秘：2025年8月上线，多模态推理能力全面升级 05KGG转MP3工具|非KGM文件|解密音频 06如何在 Cursor 中继续使用 Claude 07腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）08Claude Code 效率实战指南：从入门到精通的实用技巧（附安装教程）09Cursor 终端“卡死/无响应”问题的解法 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南