深度学习中常见的激活函数

托比-马奎尔2024-08-22 17:27

1. Sigmoid函数

范围：输出值在0到1之间。
导数：
优点：简单直观，适用于二分类问题的输出层。
缺点：在输入值较大或较小时，梯度会变得非常小（梯度消失），这会导致深层网络训练困难。同时，Sigmoid函数的输出不是以0为中心的，这可能会导致梯度下降过程中的不稳定。

应用场景：常用于二分类问题的输出层，早期的全连接层中也会使用。

2. Tanh（双曲正切函数）

范围：输出值在-1到1之间。
导数：
优点：相比Sigmoid，tanh函数的输出以0为中心，这有助于梯度的传播。对于输入值较小或较大的情况，梯度的消失问题相对较轻。
缺点：当输入值非常大或非常小时，tanh函数的梯度仍然会接近于零（梯度消失）。

应用场景：适用于中间层的激活函数，尤其是在需要负值和正值的情况中。

3. ReLU()激活函数

范围：输出值在0到正无穷之间。
导数：
优点：计算简单，梯度计算效率高，减少了梯度消失的问题，有助于加速网络的收敛。
缺点：可能导致"死亡神经元"问题，即大量神经元输出恒为0，无法进行有效的训练。

应用场景：广泛应用于隐藏层的激活函数，是现代深度学习模型中的默认选择。

上一篇：【Kubernetes】k8s集群之HPA

下一篇：【JS|第25期】探索HTTP POST请求：请求体的演变与应用

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07Labelme从安装到标注：零基础完整指南 08在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）09安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）10jdk21下载、安装（Windows、Linux、macOS）