文章目录
概要
**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。
**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。
Softmax的定义
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;
**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。
**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;