深度学习之sigmoid函数介绍

基本概念

Sigmoid函数，也称为Logistic函数，是一种常用的数学函数，其数学表达式为：

其中，e是自然对数的底数，Zj是输入变量。

Sigmoid函数曲线如下所示：

计算示例：

原始输出结果Zj：[-0.6, 1.4, 2.5]

使用Sigmoid函数后输出为：[0.35, 0.8 , 0.92]

Sigmoid函数特点

Sigmoid函数具有以下特点：

值域限定在(0, 1)之间：Sigmoid函数的输出范围是0到1之间。当输入趋近于正无穷大时，函数值逼近于1；当输入趋近于负无穷大时，函数值逼近于0。这种性质使得Sigmoid函数常被用于表示概率或者作为激活函数。

具有可微性：Sigmoid函数在定义域内是可微的，这对于使用梯度下降等优化算法进行参数训练是非常重要的。

Sigmoid函数是一个S形曲线：在输入接近0时，Sigmoid函数的斜率最大，输出接近于0.5。随着输入的增大或减小，斜率逐渐减小，输出趋近于0或1。

在机器学习和神经网络中的应用

由于其非线性的特性，Sigmoid函数在机器学习和神经网络中具有广泛的应用，尤其在早期的模型中。它主要用于以下方面：

逻辑回归：Sigmoid函数常用于逻辑回归模型中，将线性组合的输入转换为一个处于(0, 1)区间的概率值，用于预测样本属于某一类别的概率。

神经网络：Sigmoid函数在传统的神经网络结构中被用作激活函数。它将神经元的输出范围限定在(0, 1)之间，可以用于将输入信号的加权和映射到一个概率值，或者用于对输入进行适当的缩放，将输出范围限定在(-1, 1)之间。

尽管Sigmoid函数在过去被广泛使用，但近年来，一些新的激活函数（如ReLU、Leaky ReLU等）被提出并取得了更好的性能，在深度学习领域中得到了广泛应用。这些新的激活函数在解决梯度消失问题、提高模型训练速度和性能方面具有一定的优势。因此，在实际应用中，根据具体问题和模型的需求选择适当的激活函数是很重要的。

4.作为分类器

Sigmoid函数可以用于多标签分类问题。在多标签分类中，一个样本可以同时属于多个类别，而不仅仅是单个类别。Sigmoid函数在这种情况下可以用作激活函数来输出每个类别的概率。

对于每个类别，可以使用一个独立的Sigmoid函数作为输出层的激活函数。这样，每个Sigmoid函数都会将输入映射到一个处于(0, 1)区间的概率值，表示样本属于该类别的概率。每个Sigmoid函数的输出是独立的，不受其他类别的影响。

在训练阶段，通常使用二元交叉熵损失函数来度量每个类别的预测与实际标签之间的差异。通过最小化损失函数，模型可以学习到适当的参数，以使每个类别的预测概率尽可能接近实际标签。

在预测阶段，可以根据每个Sigmoid函数的输出阈值来确定样本属于哪些类别。通常，可以将输出概率大于某个阈值的类别作为预测结果。

多标签示例：

当使用Sigmoid函数进行多标签分类时，可以考虑一个示例来说明其应用。

假设我们有一个图像分类任务，需要将图像分为多个可能的类别，例如猫、狗和鸟。这是一个多标签分类问题，因为一张图像可以同时包含猫、狗和鸟。

在这种情况下，我们可以使用具有三个输出节点的神经网络。对于每个输出节点，我们使用一个独立的Sigmoid函数作为激活函数。每个Sigmoid函数的输出表示图像属于相应类别的概率。

让我们假设我们的神经网络输出三个值：y1, y2和y3。我们将它们分别通过Sigmoid函数进行映射，得到p1, p2和p3，表示图像属于猫、狗和鸟的概率。这些概率值的范围在(0, 1)之间。

例如，对于某个图像，我们得到了以下概率值：p1 = 0.75，p2 = 0.90和p3 = 0.30。这意味着该图像有75%的概率是猫，90%的概率是狗，30%的概率是鸟。

在预测阶段，我们可以选择一个阈值来确定每个类别的预测结果。例如，如果我们将阈值设置为0.5，我们可以将概率大于0.5的类别作为预测结果。在这种情况下，我们预测该图像同时包含狗和猫，因为p1和p2都大于0.5，而p3小于0.5。

通过对每个类别使用独立的Sigmoid函数，我们能够对多个类别进行独立建模，并获得每个类别的概率估计。这使得Sigmoid函数成为处理多标签分类问题的一种常用选择。

综上所述，Sigmoid函数在多标签分类中可以用来估计每个类别的概率，并且适用于那些样本可能属于多个类别的情况。这使得它成为处理多标签分类问题的一种常用选择。