【漫话机器学习系列】233.激活阈(Threshold Activation)

深度学习入门:了解"阈值激活函数"(Threshold Activation Function)

激活函数是神经网络中至关重要的一环。今天,我们通过一幅简单直观的手绘图,一起理解最早期也最基础的激活函数之一 ------ 阈值激活函数(Threshold Activation Function)


1. 前言

在深度学习(Deep Learning)中,激活函数(Activation Function) 决定了神经网络每个神经元的输出形式。

没有激活函数,神经网络就只是一堆线性叠加,无法拟合复杂的非线性关系。

而在众多激活函数中,阈值激活函数(Threshold Activation Function) 是最早被提出的一种,它简单粗暴,却也奠定了后续复杂模型的基础。

今天,让我们从这幅生动的手绘图出发,深度理解阈值激活的本质。


2. 图像解读

这张图直观展示了阈值激活函数的特性:

  • 水平方向是输入(Input),表示神经元接收到的信号。
  • 垂直方向是输出(Output),表示神经元的激活结果。

可以看到:

  • 当输入 > 0 时,输出固定为 +1。
  • 当输入 < 0 时,输出固定为 -1。
  • 当输入 = 0 时,通常根据具体定义,输出可以是 1、-1 或 0,本图示意以 1 为例。

这种"跳变式"的输出特性,就是典型的硬阈值(Hard Threshold)行为


3. 数学表达式

阈值激活函数可以用简单的公式表示为:

f ( x ) = { 1 , if x ≥ 0 − 1 , if x < 0 f(x) = \begin{cases} 1, & \text{if } x \geq 0 \\ -1, & \text{if } x < 0 \end{cases} f(x)={1,−1,if x≥0if x<0

或者在某些变种中:

f ( x ) = { 1 , if x ≥ θ − 1 , if x < θ f(x) = \begin{cases} 1, & \text{if } x \geq \theta \\ -1, & \text{if } x < \theta \end{cases} f(x)={1,−1,if x≥θif x<θ

其中,θ 是一个自定义的阈值(通常为 0)。


4. 背景与起源

  • 感知机(Perceptron) ------ 1958年,Frank Rosenblatt 提出了世界上第一个神经网络模型:感知机。
  • 在感知机中,激活函数就是一个简单的阈值函数:加权求和后,大于某个阈值就激活为1,否则激活为-1。
  • 这种方式使得神经网络能够完成最简单的分类任务(如二分类问题)。

可以说,阈值激活函数是神经网络史上的第一代激活函数


5. 特点与优缺点

优点

  • 实现简单:仅需判断大小关系。
  • 计算快速:适合硬件直接实现。
  • 清晰明了:特别适合线性可分问题(如简单分类)。

缺点

  • 不可导:函数在 x=0 处不可导,无法直接用于反向传播(Backpropagation)训练。
  • 不连续:输出突然跳变,不利于梯度更新。
  • 信息量少:只有两个输出(+1 或 -1),表达能力有限。

这些缺点直接促成了后续更复杂激活函数(如 Sigmoid、ReLU、Tanh 等)的发展。


6. 应用场景

虽然在现代深度学习中,硬阈值激活已经很少直接使用,但它仍然在一些场景下非常有用:

  • 早期神经网络(如感知机)教学与演示
  • 硬件实现(如 FPGA、低功耗芯片),需要简单快速的决策逻辑。
  • 二分类任务中,粗略建模或快速实验
  • 神经形态计算(Neuromorphic Computing) ,模拟生物神经元开关行为。

此外,它作为一种概念模型,帮助人们直观理解激活函数 的意义 ------ 将连续的输入信号转化为离散的决策输出


7. 与现代激活函数的对比

特性 阈值激活(Threshold) Sigmoid ReLU
是否可导 部分可导
是否连续
输出范围 {−1,1} 或 {0,1} (0,1) [0,+∞)
是否易于训练
典型应用 感知机、简单分类 早期神经网络 现代深度学习

可以看到,随着神经网络规模扩大和应用复杂化,更平滑、可导的激活函数成为主流。


8. 总结

虽然阈值激活函数简单、粗糙,但它是神经网络发展的起点。

它让我们明白了一个基本概念:

神经网络不仅要加权输入,更需要通过非线性函数进行处理,才能模拟复杂的决策与认知过程。

了解它,就像了解一棵参天大树的根 ------ 简单,却无比重要。


9. 参考资料

  • Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain.
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. (2016). Deep Learning.
  • Chris Albon - Machine Learning Flashcards

尾声

如果你喜欢今天这篇文章,欢迎点赞、收藏、评论支持!

相关推荐
LaughingZhu12 小时前
Product Hunt 每日热榜 | 2026-06-09
人工智能·经验分享·深度学习·神经网络·产品运营
羊羊小栈12 小时前
基于知识图谱(Neo4j)和大语言模型(LLM)的图检索增强(GraphRAG)的数控车床主轴系统故障诊断智能问答系统
人工智能·语言模型·毕业设计·知识图谱·创业创新·neo4j·大作业
人月神话-Lee12 小时前
【WWDC】Core AI:iOS 端侧大模型新纪元
人工智能·ios·ai·swift·wwdc·core ai
threelab12 小时前
Three.js 几何图形变换 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
道友可好12 小时前
写给 AI 的入职手册,AGENTS.md
前端·人工智能·后端
碳基硅坊12 小时前
NVIDIA RTX Spark:个人电脑的重新定义
人工智能·rtx spark
刘大猫.12 小时前
宇树科技回应联合英伟达开发“H2+”人形机器人,预计今年下半年正式亮相
人工智能·科技·机器学习·ai·chatgpt·机器人·大模型
Sammyyyyy12 小时前
2026 Mac 本地大模型部署深度解析与混合架构指南
数据库·人工智能·macos·ai·架构·servbay
阿寻寻12 小时前
【人工智能学习-20260608】什么是生成式AI?
人工智能·学习
kTR2hD1qb12 小时前
AI助手如何重塑开发工作流
人工智能