神经网络之S神经元(Sigmoid neurons)

机器学习(Machine Learning)系列

1、为什么引入 S神经元(Sigmoid neurons)

请先参考 神经网络之感知机(Perceptron)

假设在 手写数字识别 网络,若网络将一张本应是数字 "9" 的图像误识别为 "8",找到对应的方式微调权重和偏置,让网络对这张图像的识别结果更接近正确的 "9"。之后不断重复这一操作,反复调整权重与偏置以实现输出效果的持续优化 。 这一过程,就是神经网络的学习。

倘若权重(或偏置)的微小调整只会让输出产生相应的小幅变化,我们便可利用这一特性调整权重与偏置,让网络的表现更贴合预期。

当网络由感知机构成时 ,实际情况是即便只是对网络中某一个感知机的权重或偏置做微小调整,都有可能导致该感知器的输出发生彻底反转,比如从 0 直接变为 1。这种输出反转,又可能以某种极为复杂的方式,让网络其余部分的表现发生全局性的彻底改变。如此一来,即便这张数字 "9" 的图像此刻能被正确识别,网络对其他所有图像的识别表现,却很可能以一种难以控制的方式完全改变。这就让我们无从找到逐步调整权重与偏置的方法,来让网络的表现逐步趋近预期效果。

因此,对网络中的某一个权重(或偏置)做出微小调整,这样的权重微调,仅会让网络输出产生相应的小幅变化。具备这一特性,才让网络学习成为可能。

此时引入一种名为S 型神经元的新型人工神经元来解决这一问题。S 型神经元与感知机原理相近,但其结构经过改进,使得权重和偏置的微小调整,仅会让自身输出产生相应的小幅变化。也正是这一关键特性,让由 S 型神经元构成的网络具备了学习的可能。

2、S神经元(Sigmoid neurons)

Sigmoid神经元是一种人工神经元模型,其核心特征是使用Sigmoid函数作为激活函数。它接收多个输入信号,加权求和后通过Sigmoid函数进行非线性变换,输出一个介于0到1之间的连续值。

Sigmoid是早期神经网络中最常用的激活函数之一,公式简洁,数学性质良好,适合教学和初学者入门。

数学表达式:

设输入为 x 1 , x 2 , ... , x n x_1, x_2, \dots, x_n x1,x2,...,xn,对应的权重为 w 1 , w 2 , ... , w n w_1, w_2, \dots, w_n w1,w2,...,wn,偏置为 b b b,则Sigmoid神经元的输出为:
a = σ ( z ) = 1 1 + e − z , 其中 z = w 1 x 1 + w 2 x 2 + ⋯ + w n x n + b a = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad \text{其中} \quad z = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b a=σ(z)=1+e−z1,其中z=w1x1+w2x2+⋯+wnxn+b

这里的 σ ( z ) \sigma(z) σ(z) 就是Sigmoid函数

当 z = w ⋅ x + b z=w⋅x+b z=w⋅x+b为一个较大的正数,此时 e − z ≈ 0 e^{-z} ≈0 e−z≈0,因此 σ ( z ) ≈ 1 σ(z)≈1 σ(z)≈1。也就是说,当 z = w ⋅ x + b z=w⋅x+b z=w⋅x+b取较大正值时,S 型神经元的输出近似为 1,这与感知机的输出表现一致。

反之,若 z = w ⋅ x + b z=w⋅x+b z=w⋅x+b为一个绝对值很大的负数,那么 σ ( z ) → ∞ σ(z)→∞ σ(z)→∞,进而 σ ( z ) ≈ 0 σ(z)≈0 σ(z)≈0。可见,当 z = w ⋅ x + b z=w⋅x+b z=w⋅x+b取绝对值很大的负值时,S 型神经元的行为也与感知机高度近似。

只有当 w ⋅ x + b w⋅x+b w⋅x+b的取值处于中间范围时,S 型神经元的表现才会与感知机模型出现较明显的偏差。

特征

  • 输出范围:(0,1)
  • 平滑可导:在整个定义域内连续且可导,便于使用梯度下降法进行训练
  • 图像 :呈"S"形曲线

    σ 函数实现了感知器的平滑化,权重的微小变化Δwj和偏置的微小变化Δb,只会让神经元的输出产生微小的变化Δoutput
    Δ o u t p u t ≈ ∑ j σ o u t p u t σ w j + σ o u t p u t σ b Δ b Δoutput≈ \sum_{j} \frac{\sigma output}{\sigma w_j} + \frac{\sigma output}{\sigma b}Δb Δoutput≈j∑σwjσoutput+σbσoutputΔb

局限性

Sigmoid 神经元是早期神经网络的核心激活神经元,凭借连续可微、输出值映射到 (0,1) 区间的特性,解决了感知机不可微、无法做梯度下降训练的问题,成为 BP(反向传播)算法的基础,但随着深度学习的发展,其暴露的多重核心局限性,使其逐渐被 ReLU 等激活函数对应的神经元替代,尤其在深层神经网络中几乎不再作为核心激活单元。

梯度消失问题

Sigmoid 函数的导数范围为 (0, 0.25],深层网络反向传播时,梯度经多层连乘后快速衰减,浅层权重几乎无法更新,模型难以收敛

非零中心输出

输出恒为 (0,1) 的正数,梯度更新方向持续单向,出现 "之字形" 震荡,降低收敛效率。

计算效率低

包含指数运算,相比 ReLU 等分段函数,计算与反向传播耗时更高。

饱和后难以恢复学习

进入饱和区(输入过大或过小),梯度几乎为 0,权重几乎不再更新。

相关推荐
Pelb15 分钟前
求导 y = f(x) = x^2
人工智能·深度学习·神经网络·数学建模
workflower17 分钟前
注塑机行业目前自动化现状分析
运维·人工智能·语言模型·自动化·集成测试·软件工程·软件需求
CeshirenTester42 分钟前
华泰证券2027届校招启动|提前批+国际管培+金融科技,三个专场一次说清
人工智能·科技·金融
前端摸鱼匠44 分钟前
YOLOv11与OpenCV 联动实战:读取摄像头实时视频流并用 YOLOv11 进行检测(三)
人工智能·python·opencv·yolo·目标检测·计算机视觉·目标跟踪
杨浦老苏1 小时前
开源的AI编程工作站HolyClaude
人工智能·docker·ai·编辑器·开发·群晖
Pyeako1 小时前
PyQt5 + PaddleOCR实战:打造桌面级实时文字识别工具
开发语言·人工智能·python·qt·paddleocr·pyqt5
unclejet1 小时前
数字化转型深水区:AI结对编程破解研发痛点
人工智能·结对编程
wAEWQ6Ib71 小时前
使用 C# 实现 RTF 文档转 PDF 格式
人工智能
zxsz_com_cn1 小时前
设备预测性维护模型构建方法
人工智能
chenglin0162 小时前
AI 服务企业级数据隐私与安全
网络·人工智能·安全