Transformer模型-softmax的简明介绍

Ankie Wan2024-04-03 8:48

今天介绍transformer模型的softmax

softmax的定义和目的：

softmax：常用于神经网络的输出层，以将原始的输出值转化为概率分布，从而使得每个类别的概率值在0到1之间，并且所有类别的概率之和为1。这使得Softmax函数特别适用于多类分类问题，其中模型需要预测输入样本属于多个可能类别中的哪一个。

特点：

softmax函数通过指数运算增强了数值间的差异，使得较大值在概率分布中占主导地位，同时抑制了较小值的影响。

Softmax函数是一种将K个实数值的向量转换为另一个K个实数值的向量，并且这些值的总和为1的函数。输入值可以是正数、负数、零或大于1的数，但softmax会将其转换为0到1之间的值，以便将它们解释为概率。如果输入值很小或为负数，softmax会将其转换为小概率；如果输入值很大，则softmax会将其转换为大概率，但概率值始终保持在0和1之间。

Softmax是逻辑回归的推广，可用于多类分类，其公式与用于逻辑回归的Sigmoid函数非常相似。只有当类别是互斥的时，softmax函数才能用于分类器。

许多多层神经网络都以倒数第二层结束，该层输出未经过适当缩放的实数值分数，可能难以处理。在这里，softmax非常有用，因为它将分数转换为归一化的概率分布，可以向用户显示或用作其他系统的输入。因此，通常将softmax函数作为神经网络的最后一层。