模式识别与机器学习课程笔记(4):线性判决函数
文章目录
- 模式识别与机器学习课程笔记(4):线性判决函数
-
- 引言
- 一、线性判别函数
-
- [1.1 基本形式](#1.1 基本形式)
- [1.2 增广形式](#1.2 增广形式)
- [1.3 分类规则](#1.3 分类规则)
- 二、判别函数的鉴别意义、权空间与解空间
-
- [2.1 鉴别意义(几何意义)](#2.1 鉴别意义(几何意义))
- [2.2 权空间](#2.2 权空间)
- [2.3 解空间](#2.3 解空间)
- 三、Fisher线性判别
-
- [3.1 基本思想:寻找最优投影方向](#3.1 基本思想:寻找最优投影方向)
- [3.2 基本参量定义](#3.2 基本参量定义)
- [3.3 Fisher准则函数](#3.3 Fisher准则函数)
- [3.4 Fisher最佳鉴别矢量推导](#3.4 Fisher最佳鉴别矢量推导)
- 四、一次准则函数及梯度下降法
-
- [4.1 基本思路](#4.1 基本思路)
- [4.2 感知器算法](#4.2 感知器算法)
-
- [4.2.1 基本思想](#4.2.1 基本思想)
- [4.2.2 算法步骤](#4.2.2 算法步骤)
- [4.2.3 收敛性说明](#4.2.3 收敛性说明)
- 五、二次准则函数及其解法
-
- [5.1 基本思路](#5.1 基本思路)
- [5.2 分段二次准则函数](#5.2 分段二次准则函数)
- [5.3 最小平方误差准则及W-H算法](#5.3 最小平方误差准则及W-H算法)
-
- [5.3.1 准则函数定义](#5.3.1 准则函数定义)
- [5.3.2 W-H解法(闭式解)](#5.3.2 W-H解法(闭式解))
- [5.4 H-K算法](#5.4 H-K算法)
- 六、位势函数分类法
-
- [6.1 基本思想](#6.1 基本思想)
- [6.2 位势函数选择](#6.2 位势函数选择)
- [6.3 算法步骤](#6.3 算法步骤)
- [6.4 核心优势](#6.4 核心优势)
- 总结
引言
线性判别函数是模式识别中线性分类模型的核心,其核心思想是通过构造线性函数划分特征空间,实现对不同类别样本的分类。本文将从线性判别函数的基本定义出发,逐步深入其几何意义、最优投影方法(Fisher线性判别),并详细讲解基于准则函数的优化算法(感知器、最小二乘等),最后拓展至非线性分类的位势函数方法,形成完整的线性分类知识体系。
一、线性判别函数
线性判别函数是指判别函数与样本特征向量呈线性关系的分类函数,是最简单且应用广泛的判别函数形式,主要用于解决两类或多类线性可分问题。
1.1 基本形式
对于 d d d维样本特征向量 x = [ x 1 , x 2 , . . . , x d ] T \boldsymbol{x} = [x_1, x_2, ..., x_d]^T x=[x1,x2,...,xd]T,线性判别函数的一般形式为:
g ( x ) = w T x + w 0 g(\boldsymbol{x}) = \boldsymbol{w}^T \boldsymbol{x} + w_0 g(x)=wTx+w0
其中:
- w = [ w 1 , w 2 , . . . , w d ] T \boldsymbol{w} = [w_1, w_2, ..., w_d]^T w=[w1,w2,...,wd]T:权矢量,决定判别函数的方向;
- w 0 w_0 w0:阈值权值,决定判别函数的位置;
- g ( x ) g(\boldsymbol{x}) g(x):判别函数值,其符号用于判断样本类别。
1.2 增广形式
为了简化计算(将阈值融入权矢量),引入增广样本向量 和增广权矢量:
- 增广样本向量: x a = [ x 1 , x 2 , . . . , x d , 1 ] T \boldsymbol{x}_a = [x_1, x_2, ..., x_d, 1]^T xa=[x1,x2,...,xd,1]T(维度为 d + 1 d+1 d+1);
- 增广权矢量: w a = [ w 1 , w 2 , . . . , w d , w 0 ] T \boldsymbol{w}_a = [w_1, w_2, ..., w_d, w_0]^T wa=[w1,w2,...,wd,w0]T(维度为 d + 1 d+1 d+1)。
此时线性判别函数可简化为:
g ( x ) = w a T x a g(\boldsymbol{x}) = \boldsymbol{w}_a^T \boldsymbol{x}_a g(x)=waTxa
1.3 分类规则
- 两类问题 :若 g ( x ) > 0 g(\boldsymbol{x}) > 0 g(x)>0,则 x ∈ ω 1 \boldsymbol{x} \in \omega_1 x∈ω1;若 g ( x ) < 0 g(\boldsymbol{x}) < 0 g(x)<0,则 x ∈ ω 2 \boldsymbol{x} \in \omega_2 x∈ω2;若 g ( x ) = 0 g(\boldsymbol{x}) = 0 g(x)=0,样本处于判别界面。
- 多类问题:常见策略包括"一对一"(每两类构造一个判别函数)、"一对多"(一类与其余类构造判别函数),最终通过多数投票或最大判别值确定类别。
二、判别函数的鉴别意义、权空间与解空间
线性判别函数的本质是通过超平面划分特征空间,这一部分将从几何意义、权矢量空间和解空间三个角度解析其鉴别机制。
2.1 鉴别意义(几何意义)
线性判别函数的核心是判别界面 ------在 d d d维特征空间中,满足 g ( x ) = 0 g(\boldsymbol{x}) = 0 g(x)=0的样本构成一个 d − 1 d-1 d−1维超平面(记为 H H H),其几何性质如下:
- 超平面方程: w a T x a = 0 \boldsymbol{w}_a^T \boldsymbol{x}_a = 0 waTxa=0(增广形式),或 w T x + w 0 = 0 \boldsymbol{w}^T \boldsymbol{x} + w_0 = 0 wTx+w0=0(原始形式);
- 权矢量与超平面垂直: w \boldsymbol{w} w是超平面 H H H的法向量,决定超平面的朝向;
- 样本到超平面的距离:样本 x \boldsymbol{x} x到 H H H的垂直距离为 d = ∣ w a T x a ∣ ∥ w a ∥ d = \frac{|\boldsymbol{w}_a^T \boldsymbol{x}_a|}{\|\boldsymbol{w}_a\|} d=∥wa∥∣waTxa∣,距离绝对值越大,样本分类可信度越高。
2.2 权空间
权空间是增广权矢量 w a \boldsymbol{w}_a wa的取值空间 ,其维度与增广样本向量一致(均为 d + 1 d+1 d+1)。例如,当样本为2维( d = 2 d=2 d=2)时,增广权矢量 w a = [ w 1 , w 2 , w 0 ] T \boldsymbol{w}_a = [w_1, w_2, w_0]^T wa=[w1,w2,w0]T,权空间为3维空间。
权空间中的每个点对应一个具体的线性判别函数,即一个具体的超平面。
2.3 解空间
解空间是指满足所有训练样本正确分类的权矢量集合 。对于每个训练样本 x a i \boldsymbol{x}_a^i xai(已规范化符号,确保正确分类时 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0),其正确分类条件 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0在权空间中对应一个半空间。
所有训练样本对应的半空间的交集 即为解空间:
Ω = { w a ∣ w a T x a i > 0 , ∀ i = 1 , 2 , . . . , N } \Omega = \{\boldsymbol{w}_a \mid \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0, \forall i = 1, 2, ..., N\} Ω={wa∣waTxai>0,∀i=1,2,...,N}
- 若 Ω ≠ ∅ \Omega \neq \emptyset Ω=∅,则样本集线性可分;
- 若 Ω = ∅ \Omega = \emptyset Ω=∅,则样本集线性不可分。
三、Fisher线性判别
当样本维度较高时,直接构造线性判别函数复杂度高,Fisher线性判别通过最优投影方向将高维样本映射到一维空间,简化分类难度,是高维数据降维与分类的经典方法。
3.1 基本思想:寻找最优投影方向
核心目标:将 d d d维样本 x \boldsymbol{x} x投影到一维直线 y = w T x y = \boldsymbol{w}^T \boldsymbol{x} y=wTx( y y y为投影值),使得投影后满足两个条件:
- 类间分离度大:不同类别的投影均值差异尽可能大;
- 类内密集度小:同一类别的投影样本方差尽可能小。
通过该投影,一维空间中仅需一个阈值即可实现高效分类。
3.2 基本参量定义
假设样本集包含两类 ω 1 \omega_1 ω1( N 1 N_1 N1个样本)和 ω 2 \omega_2 ω2( N 2 N_2 N2个样本),定义以下关键参量:
参量名称 | 定义 | 物理意义 |
---|---|---|
高维样本空间 | 原始样本 x \boldsymbol{x} x所在的 d d d维空间 | 样本原始特征空间 |
一维投影空间 | 投影值 y = w T x y = \boldsymbol{w}^T \boldsymbol{x} y=wTx所在的1维空间 | 降维后的特征空间 |
类内均值向量 | m i = 1 N i ∑ x ∈ ω i x ( i = 1 , 2 ) \boldsymbol{m}i = \frac{1}{N_i} \sum{\boldsymbol{x} \in \omega_i} \boldsymbol{x} \quad (i=1,2) mi=Ni1∑x∈ωix(i=1,2) | 高维空间中第 i i i类样本的中心 |
总均值向量 | m = 1 N 1 + N 2 ( ∑ x ∈ ω 1 x + ∑ x ∈ ω 2 x ) \boldsymbol{m} = \frac{1}{N_1 + N_2} (\sum_{\boldsymbol{x} \in \omega_1} \boldsymbol{x} + \sum_{\boldsymbol{x} \in \omega_2} \boldsymbol{x}) m=N1+N21(∑x∈ω1x+∑x∈ω2x) | 所有样本的全局中心 |
类内离散度矩阵 | S w = S 1 + S 2 S_w = S_1 + S_2 Sw=S1+S2,其中 S i = ∑ x ∈ ω i ( x − m i ) ( x − m i ) T S_i = \sum_{\boldsymbol{x} \in \omega_i} (\boldsymbol{x} - \boldsymbol{m}_i)(\boldsymbol{x} - \boldsymbol{m}_i)^T Si=∑x∈ωi(x−mi)(x−mi)T | 高维空间中类内样本的分散程度( d × d d \times d d×d矩阵) |
类间离散度矩阵 | S b = ( m 1 − m ) ( m 1 − m ) T S_b = (\boldsymbol{m}_1 - \boldsymbol{m})(\boldsymbol{m}_1 - \boldsymbol{m})^T Sb=(m1−m)(m1−m)T | 高维空间中两类样本中心的分离程度( d × d d \times d d×d矩阵) |
投影后类内均值 | y ˉ i = w T m i ( i = 1 , 2 ) \bar{y}_i = \boldsymbol{w}^T \boldsymbol{m}_i \quad (i=1,2) yˉi=wTmi(i=1,2) | 一维空间中第 i i i类投影的中心 |
投影后类内方差 | σ i 2 = ∑ y ∈ ω i ( y − y ˉ i ) 2 = w T S i w \sigma_i^2 = \sum_{y \in \omega_i} (y - \bar{y}_i)^2 = \boldsymbol{w}^T S_i \boldsymbol{w} σi2=∑y∈ωi(y−yˉi)2=wTSiw | 一维空间中类内投影的分散程度 |
3.3 Fisher准则函数
为量化"类间分离大、类内密集"的目标,定义Fisher准则函数 J ( w ) J(\boldsymbol{w}) J(w)为投影后类间分离度与类内密集度的比值 :
J ( w ) = ( y ˉ 1 − y ˉ 2 ) 2 σ 1 2 + σ 2 2 J(\boldsymbol{w}) = \frac{(\bar{y}_1 - \bar{y}_2)^2}{\sigma_1^2 + \sigma_2^2} J(w)=σ12+σ22(yˉ1−yˉ2)2
将参量定义代入,化简得矩阵形式:
J ( w ) = w T S b w w T S w w J(\boldsymbol{w}) = \frac{\boldsymbol{w}^T S_b \boldsymbol{w}}{\boldsymbol{w}^T S_w \boldsymbol{w}} J(w)=wTSwwwTSbw
其中,分子 w T S b w \boldsymbol{w}^T S_b \boldsymbol{w} wTSbw反映投影后的类间分离度,分母 w T S w w \boldsymbol{w}^T S_w \boldsymbol{w} wTSww反映投影后的类内密集度。
3.4 Fisher最佳鉴别矢量推导
Fisher最佳鉴别矢量 w ∗ \boldsymbol{w}^* w∗是使 J ( w ) J(\boldsymbol{w}) J(w)最大化的权矢量,推导步骤如下:
-
求导找极值 :由于 J ( w ) J(\boldsymbol{w}) J(w)是标量,对 w \boldsymbol{w} w求梯度并令梯度为零(矩阵求导规则: ∇ w w T A w w T B w = 2 ( A w ⋅ w T B w − B w ⋅ w T A w ) ( w T B w ) 2 \nabla_{\boldsymbol{w}} \frac{\boldsymbol{w}^T A \boldsymbol{w}}{\boldsymbol{w}^T B \boldsymbol{w}} = \frac{2(A \boldsymbol{w} \cdot \boldsymbol{w}^T B \boldsymbol{w} - B \boldsymbol{w} \cdot \boldsymbol{w}^T A \boldsymbol{w})}{(\boldsymbol{w}^T B \boldsymbol{w})^2} ∇wwTBwwTAw=(wTBw)22(Aw⋅wTBw−Bw⋅wTAw)),化简得:
S b w = λ S w w S_b \boldsymbol{w} = \lambda S_w \boldsymbol{w} Sbw=λSww其中 λ = w T S b w w T S w w \lambda = \frac{\boldsymbol{w}^T S_b \boldsymbol{w}}{\boldsymbol{w}^T S_w \boldsymbol{w}} λ=wTSwwwTSbw是标量( J ( w ) J(\boldsymbol{w}) J(w)的最大值)。
-
求解矢量 w \boldsymbol{w} w :由于 S b w S_b \boldsymbol{w} Sbw始终与 ( m 1 − m ) (\boldsymbol{m}_1 - \boldsymbol{m}) (m1−m)共线( S b = ( m 1 − m ) ( m 1 − m ) T S_b = (\boldsymbol{m}_1 - \boldsymbol{m})(\boldsymbol{m}_1 - \boldsymbol{m})^T Sb=(m1−m)(m1−m)T),可直接解得:
w ∗ ∝ S w − 1 ( m 1 − m 2 ) \boldsymbol{w}^* \propto S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) w∗∝Sw−1(m1−m2) -
结论 :Fisher最佳投影方向由 S w − 1 ( m 1 − m 2 ) S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) Sw−1(m1−m2)决定,其幅度不影响投影方向(仅影响 y y y的缩放),实际应用中可直接取 w ∗ = S w − 1 ( m 1 − m 2 ) \boldsymbol{w}^* = S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) w∗=Sw−1(m1−m2)。
四、一次准则函数及梯度下降法
当样本线性可分时,可通过准则函数(量化分类误差的函数)的优化求解权矢量,一次准则函数是最简单的准则函数形式,常结合梯度下降法迭代优化。
4.1 基本思路
-
样本符号规范化 :对两类问题,将 ω 2 \omega_2 ω2类的所有样本 x \boldsymbol{x} x乘以 − 1 -1 −1,得到新样本集 X = { x a 1 , x a 2 , . . . , x a N } \mathcal{X} = \{\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N\} X={xa1,xa2,...,xaN}(均为增广形式)。此时,所有正确分类的样本满足 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0。
-
定义一次准则函数 :以"错分样本的判别函数值之和"为误差指标,准则函数为:
J 1 ( w a ) = ∑ x a ∈ X k ( − w a T x a ) J_1(\boldsymbol{w}a) = \sum{\boldsymbol{x}_a \in \mathcal{X}_k} (-\boldsymbol{w}_a^T \boldsymbol{x}_a) J1(wa)=xa∈Xk∑(−waTxa)其中 X k = { x a ∣ w a T x a ≤ 0 } \mathcal{X}_k = \{\boldsymbol{x}_a \mid \boldsymbol{w}_a^T \boldsymbol{x}_a \leq 0\} Xk={xa∣waTxa≤0}是错分样本集, J 1 ( w a ) ≥ 0 J_1(\boldsymbol{w}_a) \geq 0 J1(wa)≥0(仅当无错分时 J 1 = 0 J_1 = 0 J1=0)。
-
梯度下降优化 :通过梯度下降法最小化 J 1 ( w a ) J_1(\boldsymbol{w}_a) J1(wa),步骤如下:
- 初始化:取 w a ( 0 ) \boldsymbol{w}_a(0) wa(0)(如全零向量),迭代次数 t = 0 t=0 t=0;
- 计算错分样本集 X k ( t ) \mathcal{X}_k(t) Xk(t);
- 计算梯度: ∇ J 1 = ∂ J 1 ∂ w a = − ∑ x a ∈ X k ( t ) x a \nabla J_1 = \frac{\partial J_1}{\partial \boldsymbol{w}a} = -\sum{\boldsymbol{x}_a \in \mathcal{X}_k(t)} \boldsymbol{x}_a ∇J1=∂wa∂J1=−∑xa∈Xk(t)xa;
- 调整权矢量: w a ( t + 1 ) = w a ( t ) − η ∇ J 1 = w a ( t ) + η ∑ x a ∈ X k ( t ) x a \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) - \eta \nabla J_1 = \boldsymbol{w}a(t) + \eta \sum{\boldsymbol{x}_a \in \mathcal{X}_k(t)} \boldsymbol{x}_a wa(t+1)=wa(t)−η∇J1=wa(t)+η∑xa∈Xk(t)xa( η > 0 \eta>0 η>0为学习率);
- 重复步骤2-4,直到 X k ( t ) = ∅ \mathcal{X}_k(t) = \emptyset Xk(t)=∅(收敛)。
4.2 感知器算法
感知器算法是一次准则函数的逐样本迭代版本,无需批量计算错分样本,更易工程实现,是最早的线性分类学习算法。
4.2.1 基本思想
- 初始设置增广权矢量 w a ( 0 ) \boldsymbol{w}_a(0) wa(0)(如全零);
- 逐样本检验当前权矢量的分类正确性:对每个样本 x a i \boldsymbol{x}_a^i xai,计算 g ( x a i ) = w a T ( t ) x a i g(\boldsymbol{x}_a^i) = \boldsymbol{w}_a^T(t) \boldsymbol{x}_a^i g(xai)=waT(t)xai;
- 若分类错误( g ≤ 0 g \leq 0 g≤0),则调整权矢量;若正确,则保持不变;
- 迭代直至所有样本正确分类(线性可分前提下收敛)。
4.2.2 算法步骤
已知增广训练样本集 X = { x a 1 , x a 2 , . . . , x a N } \mathcal{X} = \{\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N\} X={xa1,xa2,...,xaN}(已符号规范化),具体步骤:
- 初始化: w a ( 0 ) = [ 0 , 0 , . . . , 0 ] T \boldsymbol{w}_a(0) = [0, 0, ..., 0]^T wa(0)=[0,0,...,0]T( d + 1 d+1 d+1维), t = 0 t=0 t=0(迭代次数);
- 遍历样本:对第 i i i个样本 x a i \boldsymbol{x}_a^i xai,计算 g i = w a T ( t ) x a i g_i = \boldsymbol{w}_a^T(t) \boldsymbol{x}_a^i gi=waT(t)xai;
- 权值调整:
- 若 g i > 0 g_i > 0 gi>0:分类正确, w a ( t + 1 ) = w a ( t ) \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) wa(t+1)=wa(t);
- 若 g i ≤ 0 g_i \leq 0 gi≤0:分类错误, w a ( t + 1 ) = w a ( t ) + η x a i \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) + \eta \boldsymbol{x}_a^i wa(t+1)=wa(t)+ηxai( η \eta η通常取1简化);
- 检查收敛:若所有样本均正确分类,停止迭代;否则 t = t + 1 t = t+1 t=t+1,返回步骤2。
4.2.3 收敛性说明
感知器收敛定理:若样本集线性可分,则感知器算法必在有限迭代次数 内收敛到一个解权矢量 w a ∗ \boldsymbol{w}_a^* wa∗,满足 w a ∗ T x a i > 0 \boldsymbol{w}_a^{*T} \boldsymbol{x}_a^i > 0 wa∗Txai>0对所有样本成立。
五、二次准则函数及其解法
一次准则函数仅适用于线性可分样本集,当样本非线性可分时算法不收敛。二次准则函数通过引入平方项,使算法适应线性可分与非线性可分两种场景,核心是最小化"判别函数与期望输出的平方误差"。
5.1 基本思路
- 研究背景:实际问题中无法预先判断样本是否线性可分,一次准则函数的局限性显著,需设计更通用的准则函数。
- 核心目标 :对任意训练样本集(线性/非线性可分),均能找到权矢量 w a \boldsymbol{w}_a wa,使"判别函数值与期望输出的平方误差"最小。
- 矩阵方程描述 :将所有样本的判别关系用矩阵表示: X w a = b \boldsymbol{X} \boldsymbol{w}_a = \boldsymbol{b} Xwa=b,其中:
- X = [ x a 1 , x a 2 , . . . , x a N ] T \boldsymbol{X} = [\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N]^T X=[xa1,xa2,...,xaN]T: N × ( d + 1 ) N \times (d+1) N×(d+1)维样本矩阵(每行一个增广样本);
- b = [ b 1 , b 2 , . . . , b N ] T \boldsymbol{b} = [b_1, b_2, ..., b_N]^T b=[b1,b2,...,bN]T: N N N维期望输出向量(通常取 b i > 0 b_i > 0 bi>0,如 b i = 1 b_i = 1 bi=1)。
5.2 分段二次准则函数
分段二次准则函数针对"错分样本"定义平方误差,避免正确样本对权值调整的干扰,公式为:
J 2 ( w a ) = ∑ x a ∈ X k 1 2 ( − w a T x a ) 2 J_2(\boldsymbol{w}a) = \sum{\boldsymbol{x}_a \in \mathcal{X}_k} \frac{1}{2} (-\boldsymbol{w}_a^T \boldsymbol{x}_a)^2 J2(wa)=xa∈Xk∑21(−waTxa)2
其中 X k \mathcal{X}_k Xk是错分样本集( w a T x a ≤ 0 \boldsymbol{w}_a^T \boldsymbol{x}_a \leq 0 waTxa≤0), J 2 ( w a ) ≥ 0 J_2(\boldsymbol{w}_a) \geq 0 J2(wa)≥0。
优化步骤(梯度下降)
- 计算梯度: ∇ J 2 = − ∑ x a ∈ X k ( w a T x a ) x a \nabla J_2 = -\sum_{\boldsymbol{x}_a \in \mathcal{X}_k} (\boldsymbol{w}_a^T \boldsymbol{x}_a) \boldsymbol{x}_a ∇J2=−∑xa∈Xk(waTxa)xa;
- 权值调整: w a ( t + 1 ) = w a ( t ) + η ∑ x a ∈ X k ( w a T ( t ) x a ) x a \boldsymbol{w}_a(t+1) = \boldsymbol{w}a(t) + \eta \sum{\boldsymbol{x}_a \in \mathcal{X}_k} (\boldsymbol{w}_a^T(t) \boldsymbol{x}_a) \boldsymbol{x}_a wa(t+1)=wa(t)+η∑xa∈Xk(waT(t)xa)xa;
- 收敛性:非线性可分时, J 2 ( w a ) J_2(\boldsymbol{w}_a) J2(wa)会收敛到最小值(非零),此时错分样本数或误差满足预设阈值。
5.3 最小平方误差准则及W-H算法
最小平方误差(Least Squares, LS)准则直接最小化"所有样本的判别值与期望输出的平方误差",不区分样本是否错分,适用性更广。
5.3.1 准则函数定义
J L S ( w a ) = ∥ X w a − b ∥ 2 = ( X w a − b ) T ( X w a − b ) J_{LS}(\boldsymbol{w}_a) = \|\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}\|^2 = (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b})^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) JLS(wa)=∥Xwa−b∥2=(Xwa−b)T(Xwa−b)
其中 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥表示欧氏范数, J L S ( w a ) ≥ 0 J_{LS}(\boldsymbol{w}_a) \geq 0 JLS(wa)≥0。
5.3.2 W-H解法(闭式解)
对 J L S ( w a ) J_{LS}(\boldsymbol{w}_a) JLS(wa)关于 w a \boldsymbol{w}a wa求导并令梯度为零:
∇ J L S = 2 X T ( X w a − b ) = 0 \nabla J{LS} = 2\boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) = 0 ∇JLS=2XT(Xwa−b)=0
整理得正规方程组 :
X T X w a = X T b \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{w}_a = \boldsymbol{X}^T \boldsymbol{b} XTXwa=XTb
若 X T X \boldsymbol{X}^T \boldsymbol{X} XTX非奇异(满秩),则权矢量的闭式解(W-H解)为:
w L S ∗ = ( X T X ) − 1 X T b \boldsymbol{w}_{LS}^* = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{b} wLS∗=(XTX)−1XTb
若 X T X \boldsymbol{X}^T \boldsymbol{X} XTX奇异(如样本数 N < d + 1 N < d+1 N<d+1),可通过加正则项(如 X T X + λ I \boldsymbol{X}^T \boldsymbol{X} + \lambda I XTX+λI, λ > 0 \lambda>0 λ>0为正则化参数)确保可逆。
5.4 H-K算法
W-H算法需计算矩阵逆,当样本维度高( d + 1 d+1 d+1大)时计算复杂度高。H-K算法是迭代求解W-H解的方法,无需矩阵求逆,更适合大规模数据。
基本思想
通过梯度下降法最小化 J L S ( w a ) J_{LS}(\boldsymbol{w}a) JLS(wa),利用 ∇ J L S = 2 X T ( X w a − b ) \nabla J{LS} = 2\boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) ∇JLS=2XT(Xwa−b),设计迭代公式:
w a ( t + 1 ) = w a ( t ) − η X T ( X w a ( t ) − b ) \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) - \eta \boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a(t) - \boldsymbol{b}) wa(t+1)=wa(t)−ηXT(Xwa(t)−b)
其中 η \eta η为学习率(通常取小值,如 η = 0.01 \eta = 0.01 η=0.01),确保迭代稳定收敛。
收敛性说明
当 η \eta η足够小时,H-K算法收敛到W-H解 w L S ∗ \boldsymbol{w}_{LS}^* wLS∗,迭代停止条件可设为 ∥ w a ( t + 1 ) − w a ( t ) ∥ < ϵ \|\boldsymbol{w}_a(t+1) - \boldsymbol{w}_a(t)\| < \epsilon ∥wa(t+1)−wa(t)∥<ϵ( ϵ \epsilon ϵ为预设小阈值)。
六、位势函数分类法
位势函数分类法是一种非线性分类方法,其核心思想源于物理"位势"概念:通过对每个训练样本赋予"位势",权矢量是所有样本位势的叠加,最终通过测试样本的"总位势"判断类别,可处理线性不可分问题。
6.1 基本思想
- 模拟物理系统:每个训练样本如同"电荷",在特征空间中产生位势;
- 位势叠加:权矢量 w \boldsymbol{w} w是所有样本位势的加权和,反映样本对分类的"贡献";
- 分类规则:测试样本的位势值(权矢量与测试样本位势的内积)符号决定类别。
6.2 位势函数选择
位势函数 κ ( x , x i ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) κ(x,xi)需满足非负性 和对称性 ( κ ( x , x i ) = κ ( x i , x ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \kappa(\boldsymbol{x}_i, \boldsymbol{x}) κ(x,xi)=κ(xi,x)),常见形式:
- 正态位势函数 : κ ( x , x i ) = exp ( − β ∥ x − x i ∥ 2 ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \exp(-\beta \|\boldsymbol{x} - \boldsymbol{x}_i\|^2) κ(x,xi)=exp(−β∥x−xi∥2),其中 β > 0 \beta > 0 β>0(控制位势衰减速度);
- 线性位势函数 : κ ( x , x i ) = x T x i + c \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \boldsymbol{x}^T \boldsymbol{x}_i + c κ(x,xi)=xTxi+c,其中 c > 0 c > 0 c>0(常数项);
- 径向基位势函数 : κ ( x , x i ) = 1 1 + β ∥ x − x i ∥ 2 \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \frac{1}{1 + \beta \|\boldsymbol{x} - \boldsymbol{x}_i\|^2} κ(x,xi)=1+β∥x−xi∥21, β > 0 \beta > 0 β>0。
6.3 算法步骤
假设样本分两类 ω 1 \omega_1 ω1(标记为 + 1 +1 +1)和 ω 2 \omega_2 ω2(标记为 − 1 -1 −1),步骤如下:
- 初始化:权矢量 w ( 0 ) = 0 \boldsymbol{w}(0) = 0 w(0)=0,迭代次数 t = 0 t=0 t=0;
- 遍历样本:对第 i i i个样本 x i \boldsymbol{x}_i xi(类别标记为 y i ∈ { + 1 , − 1 } y_i \in \{+1, -1\} yi∈{+1,−1}),计算当前位势值:
g ( x i ) = w T ( t ) ⋅ κ ( x i , x i ) g(\boldsymbol{x}_i) = \boldsymbol{w}^T(t) \cdot \kappa(\boldsymbol{x}_i, \boldsymbol{x}_i) g(xi)=wT(t)⋅κ(xi,xi) - 权值调整:
- 若 y i ⋅ g ( x i ) > 0 y_i \cdot g(\boldsymbol{x}_i) > 0 yi⋅g(xi)>0:分类正确, w ( t + 1 ) = w ( t ) \boldsymbol{w}(t+1) = \boldsymbol{w}(t) w(t+1)=w(t);
- 若 y i ⋅ g ( x i ) ≤ 0 y_i \cdot g(\boldsymbol{x}_i) \leq 0 yi⋅g(xi)≤0:分类错误, w ( t + 1 ) = w ( t ) + η ⋅ y i ⋅ κ ( x i , ⋅ ) \boldsymbol{w}(t+1) = \boldsymbol{w}(t) + \eta \cdot y_i \cdot \kappa(\boldsymbol{x}_i, \cdot) w(t+1)=w(t)+η⋅yi⋅κ(xi,⋅)( η \eta η为学习率,通常取1);
- 收敛检验:若所有样本分类正确,停止迭代;否则 t = t + 1 t = t+1 t=t+1,返回步骤2。
6.4 核心优势
- 可处理非线性可分问题:位势函数的非线性特性使分类界面可呈曲线或曲面;
- 适应性强:无需预先假设样本分布,仅通过样本位势叠加实现分类;
- 直观易懂:物理位势的类比便于理解样本对分类的贡献。
总结
本文围绕线性判别函数展开,从基础定义(线性判别函数形式)到几何意义(权空间、解空间),再到最优投影方法(Fisher线性判别),最后通过准则函数(一次、二次)和非线性拓展(位势函数)形成完整体系。关键结论如下:
- 线性判别函数的核心是超平面划分,增广形式简化计算;
- Fisher判别通过最优投影降维,平衡类间分离与类内密集;
- 感知器适用于线性可分样本,W-H/H-K算法适用于一般情况;
- 位势函数是处理非线性分类的有效工具。
这些方法是后续复杂分类模型(如支持向量机、神经网络)的基础,理解其原理对掌握模式识别核心技术至关重要。