模式识别与机器学习课程笔记（4）：线性判决函数

文章目录

模式识别与机器学习课程笔记（4）：线性判决函数
- 引言
- 一、线性判别函数
- - [1.1 基本形式](#1.1 基本形式)
  - [1.2 增广形式](#1.2 增广形式)
  - [1.3 分类规则](#1.3 分类规则)
- 二、判别函数的鉴别意义、权空间与解空间
- - [2.1 鉴别意义（几何意义）](#2.1 鉴别意义（几何意义）)
  - [2.2 权空间](#2.2 权空间)
  - [2.3 解空间](#2.3 解空间)
- 三、Fisher线性判别
- - [3.1 基本思想：寻找最优投影方向](#3.1 基本思想：寻找最优投影方向)
  - [3.2 基本参量定义](#3.2 基本参量定义)
  - [3.3 Fisher准则函数](#3.3 Fisher准则函数)
  - [3.4 Fisher最佳鉴别矢量推导](#3.4 Fisher最佳鉴别矢量推导)
- 四、一次准则函数及梯度下降法
- - [4.1 基本思路](#4.1 基本思路)
  - [4.2 感知器算法](#4.2 感知器算法)
  - - [4.2.1 基本思想](#4.2.1 基本思想)
    - [4.2.2 算法步骤](#4.2.2 算法步骤)
    - [4.2.3 收敛性说明](#4.2.3 收敛性说明)
- 五、二次准则函数及其解法
- - [5.1 基本思路](#5.1 基本思路)
  - [5.2 分段二次准则函数](#5.2 分段二次准则函数)
  - - 优化步骤（梯度下降）
  - [5.3 最小平方误差准则及W-H算法](#5.3 最小平方误差准则及W-H算法)
  - - [5.3.1 准则函数定义](#5.3.1 准则函数定义)
    - [5.3.2 W-H解法（闭式解）](#5.3.2 W-H解法（闭式解）)
  - [5.4 H-K算法](#5.4 H-K算法)
  - - 基本思想
    - 收敛性说明
- 六、位势函数分类法
- - [6.1 基本思想](#6.1 基本思想)
  - [6.2 位势函数选择](#6.2 位势函数选择)
  - [6.3 算法步骤](#6.3 算法步骤)
  - [6.4 核心优势](#6.4 核心优势)
- 总结

引言

线性判别函数是模式识别中线性分类模型的核心，其核心思想是通过构造线性函数划分特征空间，实现对不同类别样本的分类。本文将从线性判别函数的基本定义出发，逐步深入其几何意义、最优投影方法（Fisher线性判别），并详细讲解基于准则函数的优化算法（感知器、最小二乘等），最后拓展至非线性分类的位势函数方法，形成完整的线性分类知识体系。

一、线性判别函数

线性判别函数是指判别函数与样本特征向量呈线性关系的分类函数，是最简单且应用广泛的判别函数形式，主要用于解决两类或多类线性可分问题。

1.1 基本形式

对于 d d d维样本特征向量 x = [ x 1 , x 2 , . . . , x d ] T \boldsymbol{x} = [x_1, x_2, ..., x_d]^T x=[x1,x2,...,xd]T，线性判别函数的一般形式为：
g ( x ) = w T x + w 0 g(\boldsymbol{x}) = \boldsymbol{w}^T \boldsymbol{x} + w_0 g(x)=wTx+w0

其中：

w = [ w 1 , w 2 , . . . , w d ] T \boldsymbol{w} = [w_1, w_2, ..., w_d]^T w=[w1,w2,...,wd]T：权矢量，决定判别函数的方向；
w 0 w_0 w0：阈值权值，决定判别函数的位置；
g ( x ) g(\boldsymbol{x}) g(x)：判别函数值，其符号用于判断样本类别。

1.2 增广形式

为了简化计算（将阈值融入权矢量），引入增广样本向量 和增广权矢量：

增广样本向量： x a = [ x 1 , x 2 , . . . , x d , 1 ] T \boldsymbol{x}_a = [x_1, x_2, ..., x_d, 1]^T xa=[x1,x2,...,xd,1]T（维度为 d + 1 d+1 d+1）；
增广权矢量： w a = [ w 1 , w 2 , . . . , w d , w 0 ] T \boldsymbol{w}_a = [w_1, w_2, ..., w_d, w_0]^T wa=[w1,w2,...,wd,w0]T（维度为 d + 1 d+1 d+1）。

此时线性判别函数可简化为：
g ( x ) = w a T x a g(\boldsymbol{x}) = \boldsymbol{w}_a^T \boldsymbol{x}_a g(x)=waTxa

1.3 分类规则

两类问题 ：若 g ( x ) > 0 g(\boldsymbol{x}) > 0 g(x)>0，则 x ∈ ω 1 \boldsymbol{x} \in \omega_1 x∈ω1；若 g ( x ) < 0 g(\boldsymbol{x}) < 0 g(x)<0，则 x ∈ ω 2 \boldsymbol{x} \in \omega_2 x∈ω2；若 g ( x ) = 0 g(\boldsymbol{x}) = 0 g(x)=0，样本处于判别界面。
多类问题：常见策略包括"一对一"（每两类构造一个判别函数）、"一对多"（一类与其余类构造判别函数），最终通过多数投票或最大判别值确定类别。

二、判别函数的鉴别意义、权空间与解空间

线性判别函数的本质是通过超平面划分特征空间，这一部分将从几何意义、权矢量空间和解空间三个角度解析其鉴别机制。

2.1 鉴别意义（几何意义）

线性判别函数的核心是判别界面 ------在 d d d维特征空间中，满足 g ( x ) = 0 g(\boldsymbol{x}) = 0 g(x)=0的样本构成一个 d − 1 d-1 d−1维超平面（记为 H H H），其几何性质如下：

超平面方程： w a T x a = 0 \boldsymbol{w}_a^T \boldsymbol{x}_a = 0 waTxa=0（增广形式），或 w T x + w 0 = 0 \boldsymbol{w}^T \boldsymbol{x} + w_0 = 0 wTx+w0=0（原始形式）；
权矢量与超平面垂直： w \boldsymbol{w} w是超平面 H H H的法向量，决定超平面的朝向；
样本到超平面的距离：样本 x \boldsymbol{x} x到 H H H的垂直距离为 d = ∣ w a T x a ∣ ∥ w a ∥ d = \frac{|\boldsymbol{w}_a^T \boldsymbol{x}_a|}{\|\boldsymbol{w}_a\|} d=∥wa∥∣waTxa∣，距离绝对值越大，样本分类可信度越高。

2.2 权空间

权空间是增广权矢量 w a \boldsymbol{w}_a wa的取值空间 ，其维度与增广样本向量一致（均为 d + 1 d+1 d+1）。例如，当样本为2维（ d = 2 d=2 d=2）时，增广权矢量 w a = [ w 1 , w 2 , w 0 ] T \boldsymbol{w}_a = [w_1, w_2, w_0]^T wa=[w1,w2,w0]T，权空间为3维空间。

权空间中的每个点对应一个具体的线性判别函数，即一个具体的超平面。

2.3 解空间

解空间是指满足所有训练样本正确分类的权矢量集合 。对于每个训练样本 x a i \boldsymbol{x}_a^i xai（已规范化符号，确保正确分类时 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0），其正确分类条件 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0在权空间中对应一个半空间。

所有训练样本对应的半空间的交集即为解空间：
Ω = { w a ∣ w a T x a i > 0 , ∀ i = 1 , 2 , . . . , N } \Omega = \{\boldsymbol{w}_a \mid \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0, \forall i = 1, 2, ..., N\} Ω={wa∣waTxai>0,∀i=1,2,...,N}

若 Ω ≠ ∅ \Omega \neq \emptyset Ω=∅，则样本集线性可分；
若 Ω = ∅ \Omega = \emptyset Ω=∅，则样本集线性不可分。

三、Fisher线性判别

当样本维度较高时，直接构造线性判别函数复杂度高，Fisher线性判别通过最优投影方向将高维样本映射到一维空间，简化分类难度，是高维数据降维与分类的经典方法。

3.1 基本思想：寻找最优投影方向

核心目标：将 d d d维样本 x \boldsymbol{x} x投影到一维直线 y = w T x y = \boldsymbol{w}^T \boldsymbol{x} y=wTx（ y y y为投影值），使得投影后满足两个条件：

类间分离度大：不同类别的投影均值差异尽可能大；
类内密集度小：同一类别的投影样本方差尽可能小。

通过该投影，一维空间中仅需一个阈值即可实现高效分类。

3.2 基本参量定义

假设样本集包含两类 ω 1 \omega_1 ω1（ N 1 N_1 N1个样本）和 ω 2 \omega_2 ω2（ N 2 N_2 N2个样本），定义以下关键参量：

参量名称	定义	物理意义
高维样本空间	原始样本 x \boldsymbol{x} x所在的 d d d维空间	样本原始特征空间
一维投影空间	投影值 y = w T x y = \boldsymbol{w}^T \boldsymbol{x} y=wTx所在的1维空间	降维后的特征空间
类内均值向量	m i = 1 N i ∑ x ∈ ω i x ( i = 1 , 2 ) \boldsymbol{m}i = \frac{1}{N_i} \sum{\boldsymbol{x} \in \omega_i} \boldsymbol{x} \quad (i=1,2) mi=Ni1∑x∈ωix(i=1,2)	高维空间中第 i i i类样本的中心
总均值向量	m = 1 N 1 + N 2 ( ∑ x ∈ ω 1 x + ∑ x ∈ ω 2 x ) \boldsymbol{m} = \frac{1}{N_1 + N_2} (\sum_{\boldsymbol{x} \in \omega_1} \boldsymbol{x} + \sum_{\boldsymbol{x} \in \omega_2} \boldsymbol{x}) m=N1+N21(∑x∈ω1x+∑x∈ω2x)	所有样本的全局中心
类内离散度矩阵	S w = S 1 + S 2 S_w = S_1 + S_2 Sw=S1+S2，其中 S i = ∑ x ∈ ω i ( x − m i ) ( x − m i ) T S_i = \sum_{\boldsymbol{x} \in \omega_i} (\boldsymbol{x} - \boldsymbol{m}_i)(\boldsymbol{x} - \boldsymbol{m}_i)^T Si=∑x∈ωi(x−mi)(x−mi)T	高维空间中类内样本的分散程度（ d × d d \times d d×d矩阵）
类间离散度矩阵	S b = ( m 1 − m ) ( m 1 − m ) T S_b = (\boldsymbol{m}_1 - \boldsymbol{m})(\boldsymbol{m}_1 - \boldsymbol{m})^T Sb=(m1−m)(m1−m)T	高维空间中两类样本中心的分离程度（ d × d d \times d d×d矩阵）
投影后类内均值	y ˉ i = w T m i ( i = 1 , 2 ) \bar{y}_i = \boldsymbol{w}^T \boldsymbol{m}_i \quad (i=1,2) yˉi=wTmi(i=1,2)	一维空间中第 i i i类投影的中心
投影后类内方差	σ i 2 = ∑ y ∈ ω i ( y − y ˉ i ) 2 = w T S i w \sigma_i^2 = \sum_{y \in \omega_i} (y - \bar{y}_i)^2 = \boldsymbol{w}^T S_i \boldsymbol{w} σi2=∑y∈ωi(y−yˉi)2=wTSiw	一维空间中类内投影的分散程度

3.3 Fisher准则函数

为量化"类间分离大、类内密集"的目标，定义Fisher准则函数 J ( w ) J(\boldsymbol{w}) J(w)为投影后类间分离度与类内密集度的比值 ：
J ( w ) = ( y ˉ 1 − y ˉ 2 ) 2 σ 1 2 + σ 2 2 J(\boldsymbol{w}) = \frac{(\bar{y}_1 - \bar{y}_2)^2}{\sigma_1^2 + \sigma_2^2} J(w)=σ12+σ22(yˉ1−yˉ2)2

将参量定义代入，化简得矩阵形式：
J ( w ) = w T S b w w T S w w J(\boldsymbol{w}) = \frac{\boldsymbol{w}^T S_b \boldsymbol{w}}{\boldsymbol{w}^T S_w \boldsymbol{w}} J(w)=wTSwwwTSbw

其中，分子 w T S b w \boldsymbol{w}^T S_b \boldsymbol{w} wTSbw反映投影后的类间分离度，分母 w T S w w \boldsymbol{w}^T S_w \boldsymbol{w} wTSww反映投影后的类内密集度。

3.4 Fisher最佳鉴别矢量推导

Fisher最佳鉴别矢量 w ∗ \boldsymbol{w}^* w∗是使 J ( w ) J(\boldsymbol{w}) J(w)最大化的权矢量，推导步骤如下：

求导找极值 ：由于 J ( w ) J(\boldsymbol{w}) J(w)是标量，对 w \boldsymbol{w} w求梯度并令梯度为零（矩阵求导规则： ∇ w w T A w w T B w = 2 ( A w ⋅ w T B w − B w ⋅ w T A w ) ( w T B w ) 2 \nabla_{\boldsymbol{w}} \frac{\boldsymbol{w}^T A \boldsymbol{w}}{\boldsymbol{w}^T B \boldsymbol{w}} = \frac{2(A \boldsymbol{w} \cdot \boldsymbol{w}^T B \boldsymbol{w} - B \boldsymbol{w} \cdot \boldsymbol{w}^T A \boldsymbol{w})}{(\boldsymbol{w}^T B \boldsymbol{w})^2} ∇wwTBwwTAw=(wTBw)22(Aw⋅wTBw−Bw⋅wTAw)），化简得：
S b w = λ S w w S_b \boldsymbol{w} = \lambda S_w \boldsymbol{w} Sbw=λSww

其中 λ = w T S b w w T S w w \lambda = \frac{\boldsymbol{w}^T S_b \boldsymbol{w}}{\boldsymbol{w}^T S_w \boldsymbol{w}} λ=wTSwwwTSbw是标量（ J ( w ) J(\boldsymbol{w}) J(w)的最大值）。
求解矢量 w \boldsymbol{w} w ：由于 S b w S_b \boldsymbol{w} Sbw始终与 ( m 1 − m ) (\boldsymbol{m}_1 - \boldsymbol{m}) (m1−m)共线（ S b = ( m 1 − m ) ( m 1 − m ) T S_b = (\boldsymbol{m}_1 - \boldsymbol{m})(\boldsymbol{m}_1 - \boldsymbol{m})^T Sb=(m1−m)(m1−m)T），可直接解得：
w ∗ ∝ S w − 1 ( m 1 − m 2 ) \boldsymbol{w}^* \propto S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) w∗∝Sw−1(m1−m2)
结论：Fisher最佳投影方向由 S w − 1 ( m 1 − m 2 ) S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) Sw−1(m1−m2)决定，其幅度不影响投影方向（仅影响 y y y的缩放），实际应用中可直接取 w ∗ = S w − 1 ( m 1 − m 2 ) \boldsymbol{w}^* = S_w^{-1} (\boldsymbol{m}_1 - \boldsymbol{m}_2) w∗=Sw−1(m1−m2)。

四、一次准则函数及梯度下降法

当样本线性可分时，可通过准则函数（量化分类误差的函数）的优化求解权矢量，一次准则函数是最简单的准则函数形式，常结合梯度下降法迭代优化。

4.1 基本思路

样本符号规范化 ：对两类问题，将 ω 2 \omega_2 ω2类的所有样本 x \boldsymbol{x} x乘以 − 1 -1 −1，得到新样本集 X = { x a 1 , x a 2 , . . . , x a N } \mathcal{X} = \{\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N\} X={xa1,xa2,...,xaN}（均为增广形式）。此时，所有正确分类的样本满足 w a T x a i > 0 \boldsymbol{w}_a^T \boldsymbol{x}_a^i > 0 waTxai>0。
定义一次准则函数 ：以"错分样本的判别函数值之和"为误差指标，准则函数为：
J 1 ( w a ) = ∑ x a ∈ X k ( − w a T x a ) J_1(\boldsymbol{w}a) = \sum{\boldsymbol{x}_a \in \mathcal{X}_k} (-\boldsymbol{w}_a^T \boldsymbol{x}_a) J1(wa)=xa∈Xk∑(−waTxa)

其中 X k = { x a ∣ w a T x a ≤ 0 } \mathcal{X}_k = \{\boldsymbol{x}_a \mid \boldsymbol{w}_a^T \boldsymbol{x}_a \leq 0\} Xk={xa∣waTxa≤0}是错分样本集， J 1 ( w a ) ≥ 0 J_1(\boldsymbol{w}_a) \geq 0 J1(wa)≥0（仅当无错分时 J 1 = 0 J_1 = 0 J1=0）。
梯度下降优化 ：通过梯度下降法最小化 J 1 ( w a ) J_1(\boldsymbol{w}_a) J1(wa)，步骤如下：
- 初始化：取 w a ( 0 ) \boldsymbol{w}_a(0) wa(0)（如全零向量），迭代次数 t = 0 t=0 t=0；
- 计算错分样本集 X k ( t ) \mathcal{X}_k(t) Xk(t)；
- 计算梯度： ∇ J 1 = ∂ J 1 ∂ w a = − ∑ x a ∈ X k ( t ) x a \nabla J_1 = \frac{\partial J_1}{\partial \boldsymbol{w}a} = -\sum{\boldsymbol{x}_a \in \mathcal{X}_k(t)} \boldsymbol{x}_a ∇J1=∂wa∂J1=−∑xa∈Xk(t)xa；
- 调整权矢量： w a ( t + 1 ) = w a ( t ) − η ∇ J 1 = w a ( t ) + η ∑ x a ∈ X k ( t ) x a \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) - \eta \nabla J_1 = \boldsymbol{w}a(t) + \eta \sum{\boldsymbol{x}_a \in \mathcal{X}_k(t)} \boldsymbol{x}_a wa(t+1)=wa(t)−η∇J1=wa(t)+η∑xa∈Xk(t)xa（ η > 0 \eta>0 η>0为学习率）；
- 重复步骤2-4，直到 X k ( t ) = ∅ \mathcal{X}_k(t) = \emptyset Xk(t)=∅（收敛）。

4.2 感知器算法

感知器算法是一次准则函数的逐样本迭代版本，无需批量计算错分样本，更易工程实现，是最早的线性分类学习算法。

4.2.1 基本思想

初始设置增广权矢量 w a ( 0 ) \boldsymbol{w}_a(0) wa(0)（如全零）；
逐样本检验当前权矢量的分类正确性：对每个样本 x a i \boldsymbol{x}_a^i xai，计算 g ( x a i ) = w a T ( t ) x a i g(\boldsymbol{x}_a^i) = \boldsymbol{w}_a^T(t) \boldsymbol{x}_a^i g(xai)=waT(t)xai；
若分类错误（ g ≤ 0 g \leq 0 g≤0），则调整权矢量；若正确，则保持不变；
迭代直至所有样本正确分类（线性可分前提下收敛）。

4.2.2 算法步骤

已知增广训练样本集 X = { x a 1 , x a 2 , . . . , x a N } \mathcal{X} = \{\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N\} X={xa1,xa2,...,xaN}（已符号规范化），具体步骤：

初始化： w a ( 0 ) = [ 0 , 0 , . . . , 0 ] T \boldsymbol{w}_a(0) = [0, 0, ..., 0]^T wa(0)=[0,0,...,0]T（ d + 1 d+1 d+1维）， t = 0 t=0 t=0（迭代次数）；
遍历样本：对第 i i i个样本 x a i \boldsymbol{x}_a^i xai，计算 g i = w a T ( t ) x a i g_i = \boldsymbol{w}_a^T(t) \boldsymbol{x}_a^i gi=waT(t)xai；
权值调整：
- 若 g i > 0 g_i > 0 gi>0：分类正确， w a ( t + 1 ) = w a ( t ) \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) wa(t+1)=wa(t)；
- 若 g i ≤ 0 g_i \leq 0 gi≤0：分类错误， w a ( t + 1 ) = w a ( t ) + η x a i \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) + \eta \boldsymbol{x}_a^i wa(t+1)=wa(t)+ηxai（ η \eta η通常取1简化）；
检查收敛：若所有样本均正确分类，停止迭代；否则 t = t + 1 t = t+1 t=t+1，返回步骤2。

4.2.3 收敛性说明

感知器收敛定理：若样本集线性可分，则感知器算法必在有限迭代次数 内收敛到一个解权矢量 w a ∗ \boldsymbol{w}_a^* wa∗，满足 w a ∗ T x a i > 0 \boldsymbol{w}_a^{*T} \boldsymbol{x}_a^i > 0 wa∗Txai>0对所有样本成立。

五、二次准则函数及其解法

一次准则函数仅适用于线性可分样本集，当样本非线性可分时算法不收敛。二次准则函数通过引入平方项，使算法适应线性可分与非线性可分两种场景，核心是最小化"判别函数与期望输出的平方误差"。

5.1 基本思路

研究背景：实际问题中无法预先判断样本是否线性可分，一次准则函数的局限性显著，需设计更通用的准则函数。
核心目标 ：对任意训练样本集（线性/非线性可分），均能找到权矢量 w a \boldsymbol{w}_a wa，使"判别函数值与期望输出的平方误差"最小。
矩阵方程描述 ：将所有样本的判别关系用矩阵表示： X w a = b \boldsymbol{X} \boldsymbol{w}_a = \boldsymbol{b} Xwa=b，其中：
- X = [ x a 1 , x a 2 , . . . , x a N ] T \boldsymbol{X} = [\boldsymbol{x}_a^1, \boldsymbol{x}_a^2, ..., \boldsymbol{x}_a^N]^T X=[xa1,xa2,...,xaN]T： N × ( d + 1 ) N \times (d+1) N×(d+1)维样本矩阵（每行一个增广样本）；
- b = [ b 1 , b 2 , . . . , b N ] T \boldsymbol{b} = [b_1, b_2, ..., b_N]^T b=[b1,b2,...,bN]T： N N N维期望输出向量（通常取 b i > 0 b_i > 0 bi>0，如 b i = 1 b_i = 1 bi=1）。

5.2 分段二次准则函数

分段二次准则函数针对"错分样本"定义平方误差，避免正确样本对权值调整的干扰，公式为：
J 2 ( w a ) = ∑ x a ∈ X k 1 2 ( − w a T x a ) 2 J_2(\boldsymbol{w}a) = \sum{\boldsymbol{x}_a \in \mathcal{X}_k} \frac{1}{2} (-\boldsymbol{w}_a^T \boldsymbol{x}_a)^2 J2(wa)=xa∈Xk∑21(−waTxa)2

其中 X k \mathcal{X}_k Xk是错分样本集（ w a T x a ≤ 0 \boldsymbol{w}_a^T \boldsymbol{x}_a \leq 0 waTxa≤0）， J 2 ( w a ) ≥ 0 J_2(\boldsymbol{w}_a) \geq 0 J2(wa)≥0。

优化步骤（梯度下降）

计算梯度： ∇ J 2 = − ∑ x a ∈ X k ( w a T x a ) x a \nabla J_2 = -\sum_{\boldsymbol{x}_a \in \mathcal{X}_k} (\boldsymbol{w}_a^T \boldsymbol{x}_a) \boldsymbol{x}_a ∇J2=−∑xa∈Xk(waTxa)xa；
权值调整： w a ( t + 1 ) = w a ( t ) + η ∑ x a ∈ X k ( w a T ( t ) x a ) x a \boldsymbol{w}_a(t+1) = \boldsymbol{w}a(t) + \eta \sum{\boldsymbol{x}_a \in \mathcal{X}_k} (\boldsymbol{w}_a^T(t) \boldsymbol{x}_a) \boldsymbol{x}_a wa(t+1)=wa(t)+η∑xa∈Xk(waT(t)xa)xa；
收敛性：非线性可分时， J 2 ( w a ) J_2(\boldsymbol{w}_a) J2(wa)会收敛到最小值（非零），此时错分样本数或误差满足预设阈值。

5.3 最小平方误差准则及W-H算法

最小平方误差（Least Squares, LS）准则直接最小化"所有样本的判别值与期望输出的平方误差"，不区分样本是否错分，适用性更广。

5.3.1 准则函数定义

J L S ( w a ) = ∥ X w a − b ∥ 2 = ( X w a − b ) T ( X w a − b ) J_{LS}(\boldsymbol{w}_a) = \|\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}\|^2 = (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b})^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) JLS(wa)=∥Xwa−b∥2=(Xwa−b)T(Xwa−b)

其中 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥表示欧氏范数， J L S ( w a ) ≥ 0 J_{LS}(\boldsymbol{w}_a) \geq 0 JLS(wa)≥0。

5.3.2 W-H解法（闭式解）

对 J L S ( w a ) J_{LS}(\boldsymbol{w}_a) JLS(wa)关于 w a \boldsymbol{w}a wa求导并令梯度为零：
∇ J L S = 2 X T ( X w a − b ) = 0 \nabla J{LS} = 2\boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) = 0 ∇JLS=2XT(Xwa−b)=0

整理得正规方程组 ：
X T X w a = X T b \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{w}_a = \boldsymbol{X}^T \boldsymbol{b} XTXwa=XTb

若 X T X \boldsymbol{X}^T \boldsymbol{X} XTX非奇异（满秩），则权矢量的闭式解（W-H解）为：
w L S ∗ = ( X T X ) − 1 X T b \boldsymbol{w}_{LS}^* = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{b} wLS∗=(XTX)−1XTb

若 X T X \boldsymbol{X}^T \boldsymbol{X} XTX奇异（如样本数 N < d + 1 N < d+1 N<d+1），可通过加正则项（如 X T X + λ I \boldsymbol{X}^T \boldsymbol{X} + \lambda I XTX+λI， λ > 0 \lambda>0 λ>0为正则化参数）确保可逆。

5.4 H-K算法

W-H算法需计算矩阵逆，当样本维度高（ d + 1 d+1 d+1大）时计算复杂度高。H-K算法是迭代求解W-H解的方法，无需矩阵求逆，更适合大规模数据。

基本思想

通过梯度下降法最小化 J L S ( w a ) J_{LS}(\boldsymbol{w}a) JLS(wa)，利用 ∇ J L S = 2 X T ( X w a − b ) \nabla J{LS} = 2\boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a - \boldsymbol{b}) ∇JLS=2XT(Xwa−b)，设计迭代公式：
w a ( t + 1 ) = w a ( t ) − η X T ( X w a ( t ) − b ) \boldsymbol{w}_a(t+1) = \boldsymbol{w}_a(t) - \eta \boldsymbol{X}^T (\boldsymbol{X} \boldsymbol{w}_a(t) - \boldsymbol{b}) wa(t+1)=wa(t)−ηXT(Xwa(t)−b)

其中 η \eta η为学习率（通常取小值，如 η = 0.01 \eta = 0.01 η=0.01），确保迭代稳定收敛。

收敛性说明

当 η \eta η足够小时，H-K算法收敛到W-H解 w L S ∗ \boldsymbol{w}_{LS}^* wLS∗，迭代停止条件可设为 ∥ w a ( t + 1 ) − w a ( t ) ∥ < ϵ \|\boldsymbol{w}_a(t+1) - \boldsymbol{w}_a(t)\| < \epsilon ∥wa(t+1)−wa(t)∥<ϵ（ ϵ \epsilon ϵ为预设小阈值）。

六、位势函数分类法

位势函数分类法是一种非线性分类方法，其核心思想源于物理"位势"概念：通过对每个训练样本赋予"位势"，权矢量是所有样本位势的叠加，最终通过测试样本的"总位势"判断类别，可处理线性不可分问题。

6.1 基本思想

模拟物理系统：每个训练样本如同"电荷"，在特征空间中产生位势；
位势叠加：权矢量 w \boldsymbol{w} w是所有样本位势的加权和，反映样本对分类的"贡献"；
分类规则：测试样本的位势值（权矢量与测试样本位势的内积）符号决定类别。

6.2 位势函数选择

位势函数 κ ( x , x i ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) κ(x,xi)需满足非负性 和对称性 （ κ ( x , x i ) = κ ( x i , x ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \kappa(\boldsymbol{x}_i, \boldsymbol{x}) κ(x,xi)=κ(xi,x)），常见形式：

正态位势函数 ： κ ( x , x i ) = exp ⁡ ( − β ∥ x − x i ∥ 2 ) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \exp(-\beta \|\boldsymbol{x} - \boldsymbol{x}_i\|^2) κ(x,xi)=exp(−β∥x−xi∥2)，其中 β > 0 \beta > 0 β>0（控制位势衰减速度）；
线性位势函数 ： κ ( x , x i ) = x T x i + c \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \boldsymbol{x}^T \boldsymbol{x}_i + c κ(x,xi)=xTxi+c，其中 c > 0 c > 0 c>0（常数项）；
径向基位势函数 ： κ ( x , x i ) = 1 1 + β ∥ x − x i ∥ 2 \kappa(\boldsymbol{x}, \boldsymbol{x}_i) = \frac{1}{1 + \beta \|\boldsymbol{x} - \boldsymbol{x}_i\|^2} κ(x,xi)=1+β∥x−xi∥21， β > 0 \beta > 0 β>0。

6.3 算法步骤

假设样本分两类 ω 1 \omega_1 ω1（标记为 + 1 +1 +1）和 ω 2 \omega_2 ω2（标记为 − 1 -1 −1），步骤如下：

初始化：权矢量 w ( 0 ) = 0 \boldsymbol{w}(0) = 0 w(0)=0，迭代次数 t = 0 t=0 t=0；
遍历样本：对第 i i i个样本 x i \boldsymbol{x}_i xi（类别标记为 y i ∈ { + 1 , − 1 } y_i \in \{+1, -1\} yi∈{+1,−1}），计算当前位势值：
g ( x i ) = w T ( t ) ⋅ κ ( x i , x i ) g(\boldsymbol{x}_i) = \boldsymbol{w}^T(t) \cdot \kappa(\boldsymbol{x}_i, \boldsymbol{x}_i) g(xi)=wT(t)⋅κ(xi,xi)
权值调整：
- 若 y i ⋅ g ( x i ) > 0 y_i \cdot g(\boldsymbol{x}_i) > 0 yi⋅g(xi)>0：分类正确， w ( t + 1 ) = w ( t ) \boldsymbol{w}(t+1) = \boldsymbol{w}(t) w(t+1)=w(t)；
- 若 y i ⋅ g ( x i ) ≤ 0 y_i \cdot g(\boldsymbol{x}_i) \leq 0 yi⋅g(xi)≤0：分类错误， w ( t + 1 ) = w ( t ) + η ⋅ y i ⋅ κ ( x i , ⋅ ) \boldsymbol{w}(t+1) = \boldsymbol{w}(t) + \eta \cdot y_i \cdot \kappa(\boldsymbol{x}_i, \cdot) w(t+1)=w(t)+η⋅yi⋅κ(xi,⋅)（ η \eta η为学习率，通常取1）；
收敛检验：若所有样本分类正确，停止迭代；否则 t = t + 1 t = t+1 t=t+1，返回步骤2。

6.4 核心优势

可处理非线性可分问题：位势函数的非线性特性使分类界面可呈曲线或曲面；
适应性强：无需预先假设样本分布，仅通过样本位势叠加实现分类；
直观易懂：物理位势的类比便于理解样本对分类的贡献。

总结

本文围绕线性判别函数展开，从基础定义（线性判别函数形式）到几何意义（权空间、解空间），再到最优投影方法（Fisher线性判别），最后通过准则函数（一次、二次）和非线性拓展（位势函数）形成完整体系。关键结论如下：

线性判别函数的核心是超平面划分，增广形式简化计算；
Fisher判别通过最优投影降维，平衡类间分离与类内密集；
感知器适用于线性可分样本，W-H/H-K算法适用于一般情况；
位势函数是处理非线性分类的有效工具。

这些方法是后续复杂分类模型（如支持向量机、神经网络）的基础，理解其原理对掌握模式识别核心技术至关重要。