神经网络原理 第三章:单层感知器

一、 简介 (3.1节)

单层感知器有教师学习机器 中最简单的神经网络结构。它由一个或多个输出神经元 组成,但没有隐藏神经元。所有输入(源节点)直接连接到输出神经元。

本章核心:研究两类重要的单层网络:

  1. 自适应滤波器 :特别是线性自适应滤波器 ,使用最小均方(LMS)算法进行训练。
  2. 感知器 :用于模式分类,其收敛性由感知器收敛定理保证。

通俗理解 :可以把单层感知器想象成一个 "初级决策委员会" 。每个委员(输出神经元)直接听取所有群众(输入)的意见,然后各自独立做出判断。没有中间的小组讨论(隐藏层),决策过程相对简单直接。


二、 自适应滤波问题 (3.2节)

自适应滤波器 的目标是,在输入信号和期望响应信号的统计特性未知或时变的情况下,通过一个可调滤波器来逼近期望响应。

关键要素(图3-1):

  • 输入向量 x(n): 在时刻 n 作用于滤波器的信号。
  • 可调权值向量 w(n): 滤波器的参数,需要自适应调整。
  • 实际输出 y(n): y(n)=wT(n)x(n) (假设为线性组合)。
  • 期望响应 d(n): 我们希望滤波器输出的信号。
  • 误差信号 e(n): e(n)=d(n)−y(n)。

自适应过程:根据误差 e(n),按照某种算法(如LMS)自动调整权值 w(n),使得某个代价函数(如均方误差)最小化。

生活类比:就像调节老式收音机的旋钮(权值)来消除杂音(误差),直到听到清晰的广播(期望响应)。广播信号和干扰的特性可能变化,所以需要持续微调。


三、 无约束最优化技术 (3.3节)

为了寻找最优权值,需要用到最优化方法。这里主要介绍梯度下降法

💡 核心公式通俗讲解:如何"下坡"找到最低点?

假设代价函数是权值向量 w 的函数,记作 J(w)。我们希望找到使 J(w) 最小的 w。

梯度下降法迭代公式

w(n+1)=w(n)−η∇J(w(n))

其中:

  • ∇J(w) 是代价函数 J 在点 w 处的梯度
  • η 是学习率参数(步长)。

通俗讲解:想象你蒙着眼站在一个凹凸不平的山坡上(代价函数曲面),目标是找到最低的谷底。

  • 梯度 ∇J:就是你脚下那一点最陡的上坡方向。要下山,就得朝它的反方向走。
  • 负梯度 −∇J:就是当前点最陡的下坡方向
  • 学习率 η:就是你每一步迈多大。步子太大可能跨过谷底甚至导致发散;步子太小则下山太慢。
  • 迭代过程:你不断感知脚下的坡度(计算梯度),然后朝着最陡的下坡方向迈出一步(更新权值)。重复这个过程,最终(希望)能到达某个谷底(局部极小点)。

应用于自适应滤波 :通常选择均方误差 (MSE) 作为代价函数 J(w)=E[e2(n)]。梯度下降的目标就是找到使均方误差最小的权值向量。


四、 线性最小二乘滤波器 (3.4节)

当输入信号和期望响应是确定性信号 时,我们可以使用最小二乘法 。目标是最小化误差平方的累加和,而不是统计期望。

定义

对于一组观测数据 {x(i),d(i)}i=1N​,寻找权值向量 w 使得总误差能量最小:

E(w)=∑i=1N​(d(i)−wTx(i))2

正则方程

最优权值 w∗ 满足:

Rw∗=p

其中:

  • R=∑i=1Nx(i)xT(i) 是输入向量的时间平均相关矩阵
  • p=∑i=1Nx(i)d(i) 是输入向量与期望响应的时间平均互相关向量

通俗讲解 :最小二乘是一种 "事后诸葛亮"式的批量处理。它收集了所有 N 次实验的数据,然后一次性解一个方程(正则方程),找出那个能让所有历史误差平方和最小的"最佳"权值。它不像梯度下降那样一步步调整。


五、 最小均方(LMS)算法 (3.5节)

LMS算法是梯度下降法的一个实用、近似的实现,也是本章的重点。

💡 核心公式通俗讲解:一个简单高效的"实时下坡法"

回忆梯度下降需要真实的梯度 ∇J(w)=∇E[e2(n)]。但期望值 E[⋅] 未知,LMS算法用瞬时估计来替代。

LMS算法权值更新公式

w(n+1)=w(n)+ηe(n)x(n)

其中 e(n)=d(n)−wT(n)x(n)。

推导联系

真实梯度 ∇E[e2(n)]=−2E[e(n)x(n)]。

LMS算法用瞬时值 −2e(n)x(n) 作为梯度的估计值

代入梯度下降公式 w(n+1)=w(n)−η∇J,并忽略常数因子2(吸收到 η 中),就得到了LMS更新公式。

通俗讲解 :与"批量处理"的最小二乘不同,LMS是 "在线学习" 的典范。

  • 不用算总账 :它不需要存储所有历史数据来算期望,只用当前时刻的误差 e(n) 和输入 x(n)。
  • 实时调整:每获得一个新的数据对 (x(n),d(n)),就立即微调一次权值。
  • 本质 :它是第二章误差修正学习规则 (Δw=ηex) 在线性神经元情况下的具体体现。因为神经元是线性的(没有激活函数),所以输出 y(n)=wT(n)x(n)。
  • 优点:计算简单,内存需求低,适用于实时或时变环境。
  • 缺点:使用梯度估计值,收敛速度比最陡下降法慢,且对学习率 η 的选择敏感。

六、 学习曲线与学习率退火 (3.6 & 3.7节)

学习曲线 :描绘了均方误差 (MSE) 随迭代次数 n 变化的曲线。

  • 收敛过程 :MSE从初始值开始下降,最终在一个稳定值(失调)附近波动。
  • 失调:由于LMS使用梯度估计(而非真实梯度),权值会在最优解附近随机游走,导致稳态MSE大于理论最小MSE。失调大小与学习率 η 成正比。

学习率退火 :为了改善收敛性能,可以使用一个随时间递减的学习率 η(n)。

常用退火进度表:η(n)=nc​,其中 c 是常数。

通俗讲解:这就像刚开始学习时大胆探索(用较大的 η),随着越来越接近答案,步伐逐渐放小(η 减小),以便更精细地调整,最终稳定在最优解附近。


七、 感知器 (3.8节)

感知器 :一种用于线性二分类 的神经网络模型。它使用一个阈值函数(如符号函数) 作为激活函数。

数学模型

对于输入向量 x,感知器的输出为:

y=φ(wTx+b)=φ(v)

其中 φ 是符号函数:φ(v)={+1,​v≥0 −1,​v<0​

决策边界 :由方程 wTx+b=0 定义的一个超平面。它将输入空间划分为两个区域,分别对应输出+1和-1。

通俗讲解 :感知器是一个 "非黑即白"的线性分类器 。它根据输入特征的加权和是否超过某个阈值,直接将样本判为两类之一。它只能解决线性可分的问题------即存在一条直线(或超平面)能把两类样本完全分开。


八、 感知器收敛定理 (3.9节)

这是感知器算法最重要的理论保证。

感知器学习规则(误差修正型)

对于第 n 个训练样本 (x(n),d(n)),其中 d(n)∈{+1,−1}:

感知器收敛定理

如果训练样本集是线性可分 的,那么感知器学习算法在有限步迭代内收敛。即,经过有限次权值调整后,算法将找到一个能正确分类所有训练样本的权值向量。

通俗讲解 :这个定理给了我们一颗"定心丸"。只要问题是线性可分的(存在一个解),那么不管初始权值怎么设,感知器这个简单的学习规则一定 能在有限时间内找到其中一个解。它保证了算法的收敛性


九、 Gauss环境下感知器与Bayes分类器的关系 (3.10节)

本节在理论层面比较感知器和最优分类器。

贝叶斯分类器 :在已知类条件概率密度和先验概率的情况下,使分类错误概率最小的最优分类器。

结论 :在两类问题中,如果两类样本的分布是协方差矩阵相等的高斯分布 ,那么贝叶斯分类器的决策边界是一个超平面 。在这种情况下,感知器找到的决策超平面与贝叶斯最优超平面是渐近一致的

通俗讲解 :在一种最常见(高斯分布)、最理想的线性可分情况下,感知器这个简单模型最终能达到理论上的最优分类性能(贝叶斯界)。这提升了感知器的理论地位。但在更复杂(非线性可分或非高斯分布)的情况下,感知器就无能为力了。


十、 小结与讨论 (3.11节)

单层感知器的局限性

LMS算法与感知器学习规则的联系

它们都是误差修正学习规则的特例。LMS用于线性神经元,最小化均方误差;感知器学习规则用于阈值神经元,直接修正分类错误。


🗺️ 第三章知识全景脑图

复制代码
<code>mindmap
  root((神经网络原理<br/>第三章 单层感知器))
    简介
      最简单有教师学习网络
      无隐藏层
      两类重点网络
        自适应滤波器(LMS)
        感知器(分类)
    自适应滤波问题
      目标(逼近期望响应)
      关键要素
        输入向量
        可调权值向量
        实际输出
        期望响应
        误差信号
      生活类比(调收音机)
    无约束最优化技术
      梯度下降法核心思想
        梯度(最陡上坡方向)
        负梯度(最陡下坡方向)
        学习率(步长大小)
        迭代过程(逐步下坡)
      应用于MSE最小化
    线性最小二乘滤波器
      确定性信号场景
      目标(最小化误差平方和)
      正则方程(批量求解)
        R w* = p
      特点(事后批量处理)
    最小均方(LMS)算法
      梯度下降的实用近似
      核心更新公式
        w(n+1) = w(n) + η e(n) x(n)
      推导(用瞬时估计替代期望)
      特点
        在线学习(实时调整)
        计算简单内存低
        收敛慢于最陡下降
        对学习率敏感
      与误差修正规则关系
    学习曲线与学习率退火
      学习曲线描述MSE变化
      失调现象(稳态误差)
      学习率退火目的(改善收敛)
        常用η(n) = c/n
    感知器
      线性二分类模型
      数学模型(符号函数激活)
      决策边界(超平面)
      局限性(仅线性可分)
    感知器收敛定理
      感知器学习规则
        仅错误时更新
        更新量 ±2η x(n)
      定理内容
        线性可分前提下
        有限步内必然收敛
      意义(算法收敛性保证)
    Gauss下与Bayes分类器关系
      贝叶斯分类器(理论最优)
      结论
        协方差相等高斯分布时
        感知器边界渐近贝叶斯最优
    小结与讨论
      单层感知器根本局限
        无法解决非线性可分(如XOR)
        引出多层感知器(第4章)
      LMS与感知器规则联系
        同为误差修正规则特例
</code>

💡 第三章学习要点

本章是从线性到非线性、从单层到多层的关键过渡。重点理解:

  1. 计算实际输出:y(n)=sgn(wT(n)x(n))。

  2. 更新权值:w(n+1)=w(n)+η[d(n)−y(n)]x(n)

    • 注意:只有当分类错误时(d(n)=y(n)),权值才会被更新。更新量为 ±2ηx(n)(因为 d−y=±2)。
    1. 只能处理线性可分问题。对于经典的"异或(XOR)"问题,单层感知器无法解决。
    2. 这一局限性促使了多层感知器(第4章)的发展,通过引入隐藏层和非线性激活函数,网络可以解决非线性可分问题。
    1. LMS算法的直观(在线学习)和公式(Δw=ηex),它是自适应信号处理的基础。
    2. 感知器 作为线性分类器的模型、学习规则及其强大的收敛定理
    3. 明确单层网络的根本限制 (线性可分性),这为学习下一章多层感知器反向传播算法提供了强烈动机。
相关推荐
小超同学你好1 小时前
Transformer 31. ALBEF:Align before Fuse,用「先对齐、再融合」解决图文交互难学的问题
深度学习·transformer·交互
AI周红伟2 小时前
周红伟:OpenClaw安全防控:OpenClaw+Skills+私有大模型安全部署、实操和企业应用实操
大数据·人工智能·深度学习·安全·copilot·openclaw
GoAI2 小时前
《深入浅出Agent》:项目深度解析Autoresearch
人工智能·深度学习·大模型·llm·agent
kishu_iOS&AI2 小时前
NLP —— LSTM/GRU模型
人工智能·pytorch·深度学习·自然语言处理·gru·lstm
硅谷秋水2 小时前
《自动驾驶系统开发》英文版《Autonomous Driving Hanbook》推荐
人工智能·深度学习·机器学习·计算机视觉·语言模型·自动驾驶
毕胜客源码3 小时前
卷积神经网络的手势识别系统(有技术文档)深度学习 图像识别 卷积神经网络 Django python 人工智能
人工智能·python·深度学习·cnn·django
惊鸿一博3 小时前
深度学习特征匹配算法 LoFTR、DKM、RoMa 介绍
人工智能·深度学习·算法
郝学胜-神的一滴3 小时前
深度学习核心:损失函数完全解析 —— 从原理到 PyTorch 实战
人工智能·pytorch·python·深度学习·机器学习
AI技术增长3 小时前
Pytorch图像去噪实战(十):Restormer图像去噪实战,用高效Transformer解决高分辨率去噪问题
pytorch·深度学习·机器学习·cnn·transformer