一、 简介 (5.1节)
径向基函数网络 是与多层感知器截然不同的一类前馈神经网络。它同样具有输入层、隐藏层和输出层,但其核心思想源于多变量插值的数值分析方法。
RBF网络的特点:
- 隐层激活函数 :使用径向基函数 (如高斯函数),它是一种局部响应函数,只有当输入靠近函数的"中心"时,神经元才有较大的响应,远离中心时响应迅速衰减。
- 输出层激活函数 :通常是线性的,即对隐层输出进行加权求和。
- 结构优势:理论上,RBF网络也能逼近任意连续函数,且由于其局部响应特性,通常训练速度比多层感知器(使用Sigmoid全局响应函数)更快。
通俗理解:如果多层感知器(MLP)是用几把大刷子(全局激活)在画布上混合颜色画图,那么RBF网络就像是"喷绘"或"点彩画"。每个隐藏神经元是一个小喷头(局部激活),只在输入落在一个小圆圈(中心)附近时才喷漆,输出层负责把这些色点叠加起来形成最终的图像。这种方式特别适合需要"局部精细刻画"的问题。
二、 模式可分性的 Cover 定理 (5.2节)
Cover定理是理解RBF网络为什么有效的理论基础。
核心思想 :将复杂的模式分类问题非线性地投射到高维空间 ,它就更有可能变成线性可分的。
定理表述:将复杂的模式分类问题非线性地投射到高维空间,将比在低维空间中更有可能线性可分。
通俗讲解:
想象桌子上散落着红球和蓝球,纠缠在一起,在二维桌面上你怎么画一条直线都分不开它们(线性不可分)。
但是,如果你能像变魔术一样,把红球往上"浮"起来,蓝球留在桌面上(三维空间),现在你就能在桌面和半空之间插一块平板,把它们分开了(线性可分)。
RBF网络的隐藏层就在做这个"浮起来"的工作。它用非线性的径向基函数,将低维输入数据映射到高维的隐层空间(每个隐节点代表一个新维度),使得在这个高维空间里,输出层可以用简单的线性组合(超平面)完成分类。
三、 插值问题与正则化理论 (5.3 - 5.5节)
1. 严格插值问题
RBF网络的最初设计是为了解决严格插值问题 :即给定N个训练样本,网络要有N个隐藏神经元,使得网络输出严格通过每一个训练数据点(训练误差为零)。
问题 :当训练样本有噪声时,这种"完美拟合"会导致过拟合 ,网络变得极其扭曲,泛化能力极差。在数学上,这被称为不适定问题。
💡 核心公式通俗讲解:正则化如何"拉直"扭曲的函数?
为了解决不适定问题,引入了正则化理论。
正则化代价函数:
E(F)=Es(F)+λEc(F)
通俗讲解:
Es(F)(标准误差项):这就像"考试成绩",要求网络尽可能拟合训练数据(比如均方误差)。我们要它越小越好。
Ec(F)(正则化项/惩罚项) :这就像"体检健康指标",要求学到的映射函数 F 尽可能平滑(例如,函数的二阶导数或梯度不要太大)。如果函数扭来扭去(过拟合),这一项会变得很大。
λ**(正则化参数)**:这是"权衡系数"。
如果 λ=0:只看成绩,不管健康,导致过拟合(函数极度扭曲)。
如果 λ→∞:只管平滑,完全忽略数据,结果是一条直线(欠拟合)。
合适 λ:在"拟合数据"和"保持平滑"之间找到最佳平衡,让函数既大致通过数据点,又不会剧烈振荡,从而获得好的泛化能力。
四、 正则化网络与广义RBF网络 (5.6 - 5.7节)
1. 正则化网络
这是严格基于正则化理论构造的网络。
- 特点 :隐藏神经元的数量等于训练样本的数量 N。每个隐节点对应一个训练样本,其中心就在该样本点上。
- 问题:当训练集庞大时,网络结构巨大,计算负担重;且矩阵求逆困难。
2. 广义径向基函数网络
为了解决正则化网络规模过大的问题,我们构造"广义"版本。
- 关键改变:隐藏神经元的数量 M<N(通常远小于样本数)。
- 新的问题 :既然隐节点数少于样本数,那么中心位置放在哪里?不能简单放在样本点上了。
- 解决方案 :RBF中心需要通过学习来确定(如聚类算法)。
💡 RBF网络常用激活函数:高斯函数
ϕ(v)=exp(−2σj2∥x−cj∥2)
通俗讲解:
cj:第 j 个RBF神经元的中心。决定了这个"喷头"的位置。
σj:第 j 个RBF神经元的宽度(扩展常数)。决定了"喷头"的喷射范围(感受野)。σ 越大,影响范围越宽,函数越平滑。
逻辑:输入 x 离中心 cj 越远,响应 ϕ(v) 越接近0;越近,响应越接近1。
五、 核回归及其与RBF网络的关系 (5.12节)
RBF网络可以从非参数估计的核回归角度来理解。
Nadaraya-Watson核回归估计器:
F(x)=∑i=1NK(x,xi)∑i=1Ndi⋅K(x,xi)
其中 K(x,xi) 是核函数(如高斯核),di 是样本标签。
通俗讲解:
这个公式解释了RBF网络输出的本质:它是对附近训练样本标签的一种**"加权平均"**。
K(x,xi):这是权重,表示输入 x 与第 i 个样本 xi 的相似度。离得越近,权重越大。
逻辑:预测一个新点时,我不仅看最近邻的那个点,而是看周围所有的点,根据距离远近来投票(加权),距离近的说话分量重。RBF网络其实就是实现了这种思想。
六、 学习策略 (5.13节)
广义RBF网络(隐节点数 M<N)的训练通常采用混合学习策略,分为两个阶段:
- 第一阶段:学习隐层参数(中心 cj 和宽度 σj**)**
- 这通常是一个无监督学习过程。
- 常用方法 :K-均值聚类 算法。先通过聚类找出输入数据的 M 个"簇心",作为RBF的中心。宽度可以根据各簇内的平均距离来估计。
- 第二阶段:学习输出层权值(线性权值 w**)**
- 这是一个有监督的线性优化过程。
- 因为隐层参数已定,隐层输出相当于特征提取后的固定值,求输出权值就是解一个线性方程组(可以使用LMS算法或直接伪逆法求解)。
通俗讲解:RBF训练像"两步走"。第一步:先不管标签,只用眼睛观察输入数据的分布,找出几个代表性的"根据地"(中心);第二步:看着标签,根据地不变,只调整每个根据地派出的兵力比例(权值)。这比MLP那种所有参数一起乱调(非线性优化)要快得多,也更容易收敛。
七、 RBF网络与多层感知器的比较 (5.11节)
| 特性 | 多层感知器 (MLP) | 径向基函数网络 (RBF) |
| 激活函数 | 全局响应函数 (如Sigmoid, ReLU) | 局部响应函数 (如高斯函数) |
| 分类基础 | 用超平面在输入空间切分 | 用超平面在高维隐层空间切分 |
| 逼近性质 | 全局逼近:每个输入都能激活所有神经元 | 局部逼近:输入只能激活附近的神经元 |
| 隐节点数 | 通常较少,由设计者决定 | 较多(正则化网络时等于样本数),广义网络时由聚类决定 |
| 训练算法 | 反向传播(非线性优化),易陷局部极小,慢 | 混合训练(聚类+线性优化),速度快,有唯一解 |
| 参数调整 | 所有层参数同时调整 | 通常分阶段调整 |
🗺️ 第五章知识全景脑图
<code>mindmap
root((神经网络原理<br/>第五章 径向基函数网络))
简介(5.1)
另一类前馈网络
源于多变量插值
结构: 隐层(非线性RBF) + 输出层(线性)
特点: 局部响应, 训练快
Cover定理(5.2)
核心思想
非线性映射到高维
更可能线性可分
类比(红蓝球升降)
插值与正则化(5.3-5.5)
严格插值问题
零误差但易过拟合
不适定问题
正则化理论
代价函数: E = Es + λEc
Es(拟合误差)
Ec(平滑度惩罚)
λ(权衡系数, 防过拟合)
网络结构(5.6-5.7)
正则化网络
隐节点数 = 样本数
中心在样本点
广义RBF网络
隐节点数 < 样本数
中心需学习
高斯激活函数
中心c_j (位置)
宽度σ_j (范围)
公式: exp(-‖x-c‖²/2σ²)
核回归视角(5.12)
Nadaraya-Watson估计器
本质: 基于距离的加权平均
非参数估计思想
学习策略(5.13)
两阶段混合训练
第一阶段(无监督)
学习中心c和宽度σ
方法: K-means聚类
第二阶段(有监督)
学习输出权值w
方法: LMS或伪逆(线性优化)
与MLP比较(5.11)
MLP: 全局激活, 非线性优化, 隐节点少
RBF: 局部激活, 混合优化(快), 隐节点多
</code>
💡 第五章学习要点:
本章引入了一种与多层感知器理念完全不同的网络。重点理解:
- Cover定理的直观意义:隐层的作用是"升维"以实现线性可分。
- 正则化理论是解决RBF网络过拟合的核心,理解代价函数中惩罚项的作用(追求平滑性)。
- 广义RBF网络 的结构特点(中心需学习)及其两阶段训练法(先聚类学中心,再线性学权值),这解释了为什么它训练速度通常快于MLP。
- 局部响应 与全局响应的区别,这是RBF与MLP性能差异的根本来源。