文章目录
-
- [1. 概要](#1. 概要)
- [2. ReLU定义](#2. ReLU定义)
1. 概要
**ReLU 作用:**主要用于为神经网络引入非线性能力,作用是将输入中的整数保留原值,负数置为 0。 从而在层与层之间引入非线性,使神经网络能够拟合复杂的非线性关系。
**ReLU使用场景:**Llama-7B模型中,其在MLP层(前馈神经网络)作为激活函数。
2. ReLU定义
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;
**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。