神经网络常见激活函数 3-ReLU函数(修正线性单元)

ReLU

  • 修正线性单元 (Rectified Linear Unit)

函数+求导

  • ReLU函数
    ReLU ⁡ = max ⁡ ( 0 , x ) = { x x ≥ 0 0 x < 0 \begin{aligned} \operatorname{ReLU} & =\max (0, \mathrm{x}) \\ & = \begin{cases}x & x \geq 0 \\ 0 & x<0\end{cases} \end{aligned} ReLU=max(0,x)={x0x≥0x<0

  • ReLU函数求导
    d d x R e L U = { 1 x ≥ 1 0 x < 0 \frac{d}{dx} \rm ReLU = \left\{ \begin{array}{} 1 \quad x \ge1 \\ 0 \quad x < 0 \end{array} \right. dxdReLU={1x≥10x<0

    ReLU 函数的导数计算简单,x 大于等于零的时候,导数值恒为 1,在反向传播 过程中,它既不会放大梯度,造成梯度爆炸(Gradient exploding)现象;也不会缩小梯度,造 成梯度弥散(Gradient vanishing)现象


函数和导函数图像

  • 画图

    python 复制代码
    import pandas as pd
    import numpy as np
    from matplotlib import pyplot as plt
    
    def relu(x):
        return np.maximum(0,x)
    def relu_derivative(x):
        d = np.array(x, copy=True) # 用于保存梯度的张量
        d[x < 0] = 0 # 元素为负的导数为 0
        d[x >= 0] = 1 # 元素为正的导数为 1
        return d
        
    
    x = np.linspace(-2,2,1000)
    y = [relu(i) for i in x]
    y1 = [relu_derivative(i) for i in x]
    
    plt.figure(figsize=(12,8))
    ax = plt.gca()
    plt.plot(x,y,label='ReLU')
    plt.plot(x,y1,label='Derivative')
    plt.title('ReLU and Partial Derivative')
    
    #设置上边和右边无边框
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color('none')
    #设置x坐标刻度数字或名称的位置
    ax.xaxis.set_ticks_position('bottom')
    #设置边框位置
    ax.spines['bottom'].set_position(('data', 0))
    ax.yaxis.set_ticks_position('left')
    ax.spines['left'].set_position(('data',0))
    
    plt.legend(loc = 6)
  • 在 ReLU 函数被广泛应用之前,神经网络中激活函数采用 Sigmoid 居多,但是 Sigmoid 函数容易出现梯度弥散现象,当网络的层数增加后,较前层的参数由于梯度值非常微小, 参数长时间得不到有效更新,无法训练较深层的神经网络,导致神经网络的研究一直停留 在浅层。随着 ReLU 函数的提出,很好地缓解了梯度弥散的现象,神经网络的层数能够地 达到较深层数,如 AlexNet 中采用了 ReLU 激活函数,层数达到了 8 层,后续提出的上百 层的卷积神经网络也多是采用 ReLU 激活函数。


优缺点

  • Relu 函数优点

    1. 当输入为正时,ReLU 的导数为 1,能够完整传递梯度,不存在梯度消失问题(梯度饱和问题)。
    2. 计算速度快。ReLU 函数中只存在线性关系,且无论是函数还是其导数都不包含复杂的数学运算,因此它的计算速度比 Sigmoid 和 Tanh 更快。
    3. 当输入大于 0 时,梯度为 1,能够有效避免链式求导法则中梯度逐层相乘引起的梯度消失和梯度爆炸。
    4. 当输入为正时,梯度不为零,从而允许基于梯度的学习(尽管在 x=0,导数是未定义的)。当输入为负时,ReLU 的学习速度可能会变得很慢,甚至使神经元直接失效,因为此时输入小于零且梯度为零。
  • Relu 函数 缺点

    1. 当 ReLU 的输入为负时,输出始终为 0,其一阶导数也始终为 0,这会导致神经元不能更新参数,也就是神经元停止学习了,这种现象叫做"Dead Neuron"。为了解决 ReLU 函数的这个缺点,可以在 ReLU 函数的负半区间引入一个泄露(Leaky)值,这种改进称为 Leaky ReLU 函数。
    2. 与 Sigmoid 一样,ReLU 的输出不是以 0 为中心的(ReLU 的输出为 0 或正数)。
    3. ReLU 在输入小于 0 时梯度为零,这可能导致某些神经元永远被抑制,最终造成特征学习不充分;这是典型的 Dead ReLU 问题,因此需要改进随机初始化,避免将过多的负数特征送入 ReLU。

pytorch 中的 ReLU 函数

  • 代码

    python 复制代码
    import torch
    
    f = torch.nn.ReLU()
    x = torch.randn(2)
    
    relu_x = f(x)
    
    print(f"x: \n{x}")
    print(f"relu_x:\n{relu_x}")
    
    """输出"""
    x: 
    tensor([ 0.5781, -0.4898])
    relu_x:
    tensor([0.5781, 0.0000])

    注意看,随机生成的 tensor 中,小于 0 的经过 relu 被抑制成为 0


tensorflow 中的ReLU函数

  • 代码

    python: 3.10.9

    tensorflow: 2.18.0

    python 复制代码
    import tensorflow as tf
    
    f = tf.nn.relu
    x = tf.random.normal([2])
    
    relu_x = f(x)
    
    print(f"x: \n{x}")
    print(f"relu_x:\n{relu_x}")
    
    """输出"""
    x: 
    [ 1.5739431 -0.5497837]
    relu_x:
    [1.5739431 0.       ]

相关推荐
weixin_1562415757618 分钟前
基于YOLOv8深度学习花卉识别系统摄像头实时图片文件夹多图片等另有其他的识别系统可二开
大数据·人工智能·python·深度学习·yolo
AI_Claude_code23 分钟前
ZLibrary访问困境方案三:Web代理与轻量级转发服务的搭建与优化
爬虫·python·web安全·搜索引擎·网络安全·web3·httpx
QQ6765800823 分钟前
AI赋能轨道交通智能巡检 轨道交通故障检测 轨道缺陷断裂检测 轨道裂纹识别 鱼尾板故障识别 轨道巡检缺陷数据集深度学习yolo第10303期
人工智能·深度学习·yolo·智能巡检·轨道交通故障检测·鱼尾板故障识别·轨道缺陷断裂检测
小陈工25 分钟前
2026年4月7日技术资讯洞察:下一代数据库融合、AI基础设施竞赛与异步编程实战
开发语言·前端·数据库·人工智能·python
时空无限32 分钟前
ansible 由于不同主机 python 版本不同执行报错
python·ansible
云程笔记34 分钟前
002.计算机视觉与目标检测发展简史:从传统方法到深度学习
深度学习·yolo·目标检测·计算机视觉
ZhengEnCi35 分钟前
P2E-Python字典操作完全指南-从增删改查到遍历嵌套的Python编程利器
python
alanesnape36 分钟前
使用AVL平衡树和列表实现 map容器 -- 附加测试/python代码
python·map·avl 平衡树·bst树·二叉树旋转
weixin_156241575761 小时前
基于YOLO深度学习的动物检测与识别系统
人工智能·深度学习·yolo
卤炖阑尾炎1 小时前
Python 网络编程实战:从 TCP/UDP 基础到高并发服务器开发
网络·python·tcp/ip