【机器学习300问】66、ReLU激活函数相对于Sigmoid和Tanh激活函数的优点是什么?ReLU它有局限性吗?如何改进?

一、ReLU相对于Sigmoid和Tanh的优点

(1)计算效率高

ReLU函数数学形式简单,仅需要对输入进行阈值操作,大于0则保留,小于0则置为0。Sigmoid和Tanh需要指数运算但ReLU不需要。所以相比之下它会更快,降低了神经网络的运行时间和计算资源消耗。

(2)解决梯度消失问题

Sigmoid和Tanh在输入值较大或较小时,其导数接近于0,易导致梯度消失。而ReLU在正区间内导数恒为1,这意味着对于正输入,梯度不会随着网络层的增加而衰减,这有助于解决深度网络中的梯度消失问题。关于这方面我单独写了一篇文章:【机器学习300问】65、为什么Sigmoid和Tanh激活函数会导致梯度消失?http://t.csdnimg.cn/MmRdi

(3)稀疏激活性

在ReLU中,所有的负输入都会输出0,这导致了网络中的神经元输出是稀疏的,即在任何时候都只有一部分神经元是激活的,这样的稀疏性可以提高网络的表达能力,有助于降低过拟合风险,提高模型的泛化能力。

二、ReLU它的局限性和改进方案

(1)ReLU的局限性

  • 神经元死亡问题:这是由于负梯度经过ReLU的时候被置0,且以后也再也不被任何数据激活,即流经该神经元的梯度永远为0,不对任何数据产生响应。如果在实际训练中,如果不恰当的参数初始化或者学习率设置较大,会导致一定比例的神经元会不可逆的死亡,进而参数梯度无法跟新,导致训练失败。
  • 非连续梯度问题: ReLU在原点处的梯度突然从1变为0,这种不连续性可能在某些情况下导致训练不稳定。

ReLU函数

ReLU函数的导函数

(2)改进方法

可以采用ReLU的变种**Leaky ReLU(LReLU)**这个函数的表达式为:

LReLU在正区间的行为与ReLU相同,其中的α是一个很小的正常数。图像如下:

它解决"死神经元"局限性的原理是引入一个小的、固定的梯度α(如α = 0.01), 即使在输入值为负数的情况下也允许神经元有一个小的、非零的梯度。LReLU的这个α值是人为设定的,对所有负值输入统一适用,训练过程中不进行学习或调整。

基于这种思想,参数化的Parametric ReLU (PReLU) 应运而生,他和LReLU的主要区别是对于负值输入,PReLU引入了一个可学习的参数α,这里的α不再是一个固定的常数,而是在训练过程中根据反向传播算法和优化过程自动学习得到的,它可以是每个神经元独享的一个参数,也可以是共享于整个网络层的所有神经元。

相关推荐
Blossom.1181 分钟前
基于深度学习的智能视频行为识别系统:技术与实践
人工智能·深度学习·神经网络·目标检测·机器学习·音视频·sklearn
苹果企业签名分发8 分钟前
火山引擎豆包大模型系列新品发布
人工智能·火山引擎
qq_397752931 小时前
革新仓储新纪元:海格里斯HEGERLS四向穿梭车智领未来
大数据·人工智能
思绪漂移1 小时前
让Agent的应用价值增长
人工智能·aigc
羊小猪~~1 小时前
【NLP入门系列三】NLP文本嵌入(以Embedding和EmbeddingBag为例)
人工智能·深度学习·神经网络·自然语言处理·大模型·nlp·embedding
事变天下1 小时前
店匠科技闪耀“跨博会”,技术+生态打造灵活出海能力
大数据·人工智能·科技
未来智慧谷2 小时前
全球首款5G-A人形机器人亮相,通信与AI融合进入新阶段
人工智能·5g·机器人
love530love2 小时前
【笔记】解决部署国产AI Agent 开源项目 MiniMax-M1时 Hugging Face 模型下载缓存占满 C 盘问题:更改缓存位置全流程
开发语言·人工智能·windows·笔记·python·缓存·uv
贝多财经2 小时前
魅族“换血”出牌:手机基本盘站不稳,想靠AI和汽车“改命”
人工智能·智能手机·汽车
青软青之LIMS2 小时前
King’s LIMS 系统引领汽车检测实验室数字化转型
大数据·人工智能·汽车·实验室数字化管理系统·实验室综合管理平台·实验室检测管理系统