【漫话机器学习系列】233.激活阈(Threshold Activation)

深度学习入门:了解"阈值激活函数"(Threshold Activation Function)

激活函数是神经网络中至关重要的一环。今天,我们通过一幅简单直观的手绘图,一起理解最早期也最基础的激活函数之一 ------ 阈值激活函数(Threshold Activation Function)


1. 前言

在深度学习(Deep Learning)中,激活函数(Activation Function) 决定了神经网络每个神经元的输出形式。

没有激活函数,神经网络就只是一堆线性叠加,无法拟合复杂的非线性关系。

而在众多激活函数中,阈值激活函数(Threshold Activation Function) 是最早被提出的一种,它简单粗暴,却也奠定了后续复杂模型的基础。

今天,让我们从这幅生动的手绘图出发,深度理解阈值激活的本质。


2. 图像解读

这张图直观展示了阈值激活函数的特性:

  • 水平方向是输入(Input),表示神经元接收到的信号。
  • 垂直方向是输出(Output),表示神经元的激活结果。

可以看到:

  • 当输入 > 0 时,输出固定为 +1。
  • 当输入 < 0 时,输出固定为 -1。
  • 当输入 = 0 时,通常根据具体定义,输出可以是 1、-1 或 0,本图示意以 1 为例。

这种"跳变式"的输出特性,就是典型的硬阈值(Hard Threshold)行为


3. 数学表达式

阈值激活函数可以用简单的公式表示为:

<math xmlns="http://www.w3.org/1998/Math/MathML"> f ( x ) = { 1 , if x ≥ 0 − 1 , if x < 0 f(x) = \begin{cases} 1, & \text{if } x \geq 0 \\ -1, & \text{if } x < 0 \end{cases} </math>f(x)={1,−1,if x≥0if x<0

或者在某些变种中:

<math xmlns="http://www.w3.org/1998/Math/MathML"> f ( x ) = { 1 , if x ≥ θ − 1 , if x < θ f(x) = \begin{cases} 1, & \text{if } x \geq \theta \\ -1, & \text{if } x < \theta \end{cases} </math>f(x)={1,−1,if x≥θif x<θ

其中,θ 是一个自定义的阈值(通常为 0)。


4. 背景与起源

  • 感知机(Perceptron) ------ 1958年,Frank Rosenblatt 提出了世界上第一个神经网络模型:感知机。
  • 在感知机中,激活函数就是一个简单的阈值函数:加权求和后,大于某个阈值就激活为1,否则激活为-1。
  • 这种方式使得神经网络能够完成最简单的分类任务(如二分类问题)。

可以说,阈值激活函数是神经网络史上的第一代激活函数


5. 特点与优缺点

优点

  • 实现简单:仅需判断大小关系。
  • 计算快速:适合硬件直接实现。
  • 清晰明了:特别适合线性可分问题(如简单分类)。

缺点

  • 不可导:函数在 x=0 处不可导,无法直接用于反向传播(Backpropagation)训练。
  • 不连续:输出突然跳变,不利于梯度更新。
  • 信息量少:只有两个输出(+1 或 -1),表达能力有限。

这些缺点直接促成了后续更复杂激活函数(如 Sigmoid、ReLU、Tanh 等)的发展。


6. 应用场景

虽然在现代深度学习中,硬阈值激活已经很少直接使用,但它仍然在一些场景下非常有用:

  • 早期神经网络(如感知机)教学与演示
  • 硬件实现(如 FPGA、低功耗芯片),需要简单快速的决策逻辑。
  • 二分类任务中,粗略建模或快速实验
  • 神经形态计算(Neuromorphic Computing) ,模拟生物神经元开关行为。

此外,它作为一种概念模型,帮助人们直观理解激活函数 的意义 ------ 将连续的输入信号转化为离散的决策输出


7. 与现代激活函数的对比

特性 阈值激活(Threshold) Sigmoid ReLU
是否可导 部分可导
是否连续
输出范围 {−1,1} 或 {0,1} (0,1) [0,+∞)
是否易于训练
典型应用 感知机、简单分类 早期神经网络 现代深度学习

可以看到,随着神经网络规模扩大和应用复杂化,更平滑、可导的激活函数成为主流。


8. 总结

虽然阈值激活函数简单、粗糙,但它是神经网络发展的起点。

它让我们明白了一个基本概念:

神经网络不仅要加权输入,更需要通过非线性函数进行处理,才能模拟复杂的决策与认知过程。

了解它,就像了解一棵参天大树的根 ------ 简单,却无比重要。


9. 参考资料

  • Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain.
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. (2016). Deep Learning.
  • Chris Albon - Machine Learning Flashcards

尾声

如果你喜欢今天这篇文章,欢迎点赞、收藏、评论支持!

相关推荐
麻雀无能为力2 小时前
CAU数据挖掘实验 表分析数据插件
人工智能·数据挖掘·中国农业大学
时序之心2 小时前
时空数据挖掘五大革新方向详解篇!
人工智能·数据挖掘·论文·时间序列
.30-06Springfield3 小时前
人工智能概念之七:集成学习思想(Bagging、Boosting、Stacking)
人工智能·算法·机器学习·集成学习
说私域4 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的超级文化符号构建路径研究
人工智能·小程序·开源
永洪科技4 小时前
永洪科技荣获商业智能品牌影响力奖,全力打造”AI+决策”引擎
大数据·人工智能·科技·数据分析·数据可视化·bi
shangyingying_14 小时前
关于小波降噪、小波增强、小波去雾的原理区分
人工智能·深度学习·计算机视觉
书玮嘎5 小时前
【WIP】【VLA&VLM——InternVL系列】
人工智能·深度学习
猫头虎5 小时前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
要努力啊啊啊6 小时前
YOLOv2 正负样本分配机制详解
人工智能·深度学习·yolo·计算机视觉·目标跟踪