深度学习之sigmoid函数介绍

  1. 基本概念

Sigmoid函数,也称为Logistic函数,是一种常用的数学函数,其数学表达式为:

其中,e是自然对数的底数,Zj是输入变量。

Sigmoid函数曲线如下所示:

计算示例:

原始输出结果Zj:[-0.6, 1.4, 2.5]

使用Sigmoid函数后输出为:[0.35, 0.8 , 0.92]

  1. Sigmoid函数特点

Sigmoid函数具有以下特点:

值域限定在(0, 1)之间:Sigmoid函数的输出范围是0到1之间。当输入趋近于正无穷大时,函数值逼近于1;当输入趋近于负无穷大时,函数值逼近于0。这种性质使得Sigmoid函数常被用于表示概率或者作为激活函数。

具有可微性:Sigmoid函数在定义域内是可微的,这对于使用梯度下降等优化算法进行参数训练是非常重要的。

Sigmoid函数是一个S形曲线:在输入接近0时,Sigmoid函数的斜率最大,输出接近于0.5。随着输入的增大或减小,斜率逐渐减小,输出趋近于0或1。

  1. 在机器学习和神经网络中的应用

由于其非线性的特性,Sigmoid函数在机器学习和神经网络中具有广泛的应用,尤其在早期的模型中。它主要用于以下方面:

逻辑回归:Sigmoid函数常用于逻辑回归模型中,将线性组合的输入转换为一个处于(0, 1)区间的概率值,用于预测样本属于某一类别的概率。

神经网络:Sigmoid函数在传统的神经网络结构中被用作激活函数。它将神经元的输出范围限定在(0, 1)之间,可以用于将输入信号的加权和映射到一个概率值,或者用于对输入进行适当的缩放,将输出范围限定在(-1, 1)之间。

尽管Sigmoid函数在过去被广泛使用,但近年来,一些新的激活函数(如ReLU、Leaky ReLU等)被提出并取得了更好的性能,在深度学习领域中得到了广泛应用。这些新的激活函数在解决梯度消失问题、提高模型训练速度和性能方面具有一定的优势。因此,在实际应用中,根据具体问题和模型的需求选择适当的激活函数是很重要的。

4.作为分类器

Sigmoid函数可以用于多标签分类问题。在多标签分类中,一个样本可以同时属于多个类别,而不仅仅是单个类别。Sigmoid函数在这种情况下可以用作激活函数来输出每个类别的概率。

对于每个类别,可以使用一个独立的Sigmoid函数作为输出层的激活函数。这样,每个Sigmoid函数都会将输入映射到一个处于(0, 1)区间的概率值,表示样本属于该类别的概率。每个Sigmoid函数的输出是独立的,不受其他类别的影响。

在训练阶段,通常使用二元交叉熵损失函数来度量每个类别的预测与实际标签之间的差异。通过最小化损失函数,模型可以学习到适当的参数,以使每个类别的预测概率尽可能接近实际标签。

在预测阶段,可以根据每个Sigmoid函数的输出阈值来确定样本属于哪些类别。通常,可以将输出概率大于某个阈值的类别作为预测结果。

  1. 多标签示例:

当使用Sigmoid函数进行多标签分类时,可以考虑一个示例来说明其应用。

假设我们有一个图像分类任务,需要将图像分为多个可能的类别,例如猫、狗和鸟。这是一个多标签分类问题,因为一张图像可以同时包含猫、狗和鸟。

在这种情况下,我们可以使用具有三个输出节点的神经网络。对于每个输出节点,我们使用一个独立的Sigmoid函数作为激活函数。每个Sigmoid函数的输出表示图像属于相应类别的概率。

让我们假设我们的神经网络输出三个值:y1, y2和y3。我们将它们分别通过Sigmoid函数进行映射,得到p1, p2和p3,表示图像属于猫、狗和鸟的概率。这些概率值的范围在(0, 1)之间。

例如,对于某个图像,我们得到了以下概率值:p1 = 0.75,p2 = 0.90和p3 = 0.30。这意味着该图像有75%的概率是猫,90%的概率是狗,30%的概率是鸟。

在预测阶段,我们可以选择一个阈值来确定每个类别的预测结果。例如,如果我们将阈值设置为0.5,我们可以将概率大于0.5的类别作为预测结果。在这种情况下,我们预测该图像同时包含狗和猫,因为p1和p2都大于0.5,而p3小于0.5。

通过对每个类别使用独立的Sigmoid函数,我们能够对多个类别进行独立建模,并获得每个类别的概率估计。这使得Sigmoid函数成为处理多标签分类问题的一种常用选择。

综上所述,Sigmoid函数在多标签分类中可以用来估计每个类别的概率,并且适用于那些样本可能属于多个类别的情况。这使得它成为处理多标签分类问题的一种常用选择。

相关推荐
bu_shuo5 分钟前
将AI生成的数学公式正确复制到word中
人工智能·chatgpt·word·latex
AI科技星8 分钟前
光速飞行器动力学方程的第一性原理推导、验证与范式革命
数据结构·人工智能·线性代数·算法·机器学习·概率论
摘星编程11 分钟前
RAG的下一站:检索增强生成如何重塑企业知识中枢?
android·人工智能
Aaron_94513 分钟前
BitNet:1-bit大语言模型的高效推理框架详解
人工智能·语言模型·自然语言处理
wenzhangli714 分钟前
「1+3 架构驱动」OoderAI 企业级解决方案:破解 AI 落地三大痛点,实现能力可控、交互智能与代码一致
人工智能
视觉&物联智能18 分钟前
【杂谈】-人工智能在风险管理中的应用:愿景与现实的差距
人工智能·网络安全·ai·aigc·agi
寻星探路23 分钟前
【算法通关】双指针技巧深度解析:从基础到巅峰(Java 最优解)
java·开发语言·人工智能·python·算法·ai·指针
知识分享小能手24 分钟前
Ubuntu入门学习教程,从入门到精通,Ubuntu 22.04中的人工智能—— 知识点详解 (25)
人工智能·学习·ubuntu
cyyt25 分钟前
深度学习周报(1.05~1.11)
人工智能·深度学习
Destiny_where29 分钟前
Claude VSCode插件版接入强大的GLM(无需登录注册claude code)
ide·人工智能·vscode·编辑器·claude code