学习笔记二十八：核方法

1. 基本概念

1.1 核方法的观察

SVM和SVR的共同特点 ：

回顾SVM和SVR的学习结果，可以发现一个共同特点：对于给定的训练样本，如果不考虑偏置项 bbb，那么无论是SVM还是SVR，学得的模型总可以表示为核函数 κ(x,xi)\kappa(x, x_i)κ(x,xi) 的线性组合。

这一观察的意义 ：

这表明核函数在支持向量机中起到了核心作用，使得模型能够隐式地在高维特征空间中工作，而不需要显式地计算特征映射。

1.2 表示定理

表示定理 ：

表示定理给出了一个更一般的结论，说明了为什么许多基于核函数的学习方法都能将解表示为核函数的线性组合。

定理内容 ：

设 H\mathcal{H}H 为核函数 κ\kappaκ 对应的再生核希尔伯特空间（RKHS），∣∣h∣∣H||h||_{\mathcal{H}}∣∣h∣∣H 为 hhh 在 H\mathcal{H}H 中的范数。对于任意单调递增函数 Ω:[0,∞]→R\Omega: [0, \infty] \to \mathbb{R}Ω:[0,∞]→R 和任意非负损失函数 ℓ:R→[0,∞]\ell: \mathbb{R} \to [0, \infty]ℓ:R→[0,∞]，优化问题：

min⁡h∈HF(h)=Ω(∣∣h∣∣H)+∑i=1mℓ(h(xi),yi)\min_{h \in \mathcal{H}} F(h) = \Omega(||h||{\mathcal{H}}) + \sum{i=1}^{m} \ell(h(x_i), y_i)h∈HminF(h)=Ω(∣∣h∣∣H)+i=1∑mℓ(h(xi),yi)

的解 h∗(x)h^*(x)h∗(x) 总可以写为：

h∗(x)=∑i=1mαiκ(x,xi)h^*(x) = \sum_{i=1}^{m} \alpha_i \kappa(x, x_i)h∗(x)=i=1∑mαiκ(x,xi)

表示定理的意义：

一般性 ：对损失函数没有限制，只要求正则化项 Ω\OmegaΩ 单调递增（甚至不要求凸性）
统一性：无论使用什么损失函数和正则化项，最优解都可以表示为核函数的线性组合
威力：这展示了核函数的巨大威力，为核方法提供了坚实的理论基础

1.3 核方法的概念

核方法的定义 ：

基于核函数发展出来的一系列学习方法，统称为核方法（kernel methods）。

核化的思想 ：

最常见的做法是核化（kernelization），即引入核函数，将线性学习算法扩展为非线性版本。

核化的优势：

隐式特征映射：通过核函数隐式地表达特征映射和特征空间，无需显式计算高维特征
计算效率：避免了在高维特征空间中直接计算，提高了计算效率
灵活性：可以将任何线性学习算法扩展为非线性版本

2. 核方法的应用

2.1 核化的基本思路

核化的步骤：

识别线性算法：找出线性学习算法中的内积运算
引入特征映射 ：假设存在映射 ϕ:X→F\phi: \mathcal{X} \to \mathcal{F}ϕ:X→F 将样本映射到特征空间 F\mathcal{F}F
在特征空间中求解 ：在特征空间 F\mathcal{F}F 中执行线性学习算法
用核函数替换 ：用核函数 κ(xi,xj)=ϕ(xi)Tϕ(xj)\kappa(x_i, x_j) = \phi(x_i)^T \phi(x_j)κ(xi,xj)=ϕ(xi)Tϕ(xj) 隐式地表达特征映射

核化的关键 ：

关键在于识别算法中需要计算内积的地方，然后用核函数替换这些内积运算。

2.2 核线性判别分析（KLDA）

线性判别分析的核化 ：

以线性判别分析（LDA）为例，说明如何通过核化将其扩展为非线性版本，得到核线性判别分析（Kernelized Linear Discriminant Analysis，简称KLDA）。

基本思路：

特征映射 ：假设存在映射 ϕ:X→F\phi: \mathcal{X} \to \mathcal{F}ϕ:X→F 将样本映射到特征空间 F\mathcal{F}F
在特征空间中执行LDA ：在特征空间 F\mathcal{F}F 中执行线性判别分析，得到解 h(x)=wTϕ(x)h(x) = w^T \phi(x)h(x)=wTϕ(x)
应用表示定理 ：根据表示定理，www 可以表示为训练样本特征映射的线性组合：

w=∑i=1mαiϕ(xi)w = \sum_{i=1}^{m} \alpha_i \phi(x_i)w=i=1∑mαiϕ(xi)

用核函数表达 ：用核函数 κ(xi,xj)=ϕ(xi)Tϕ(xj)\kappa(x_i, x_j) = \phi(x_i)^T \phi(x_j)κ(xi,xj)=ϕ(xi)Tϕ(xj) 隐式地表达特征映射，避免显式计算高维特征

KLDA的优势：

保持了LDA的优点（如类别可分性最大化）
通过核函数处理非线性问题
避免了在高维特征空间中直接计算

3. 总结

表示定理的核心价值：

理论保证：为核方法提供了坚实的理论基础，说明最优解总可以表示为核函数的线性组合
一般性：对损失函数和正则化项的要求很宽松，适用范围广
统一性：为各种核方法提供了统一的解释框架

核方法的特点：

隐式特征映射：通过核函数隐式地表达特征映射，避免显式计算高维特征
计算效率：避免了在高维特征空间中直接计算，提高了计算效率
灵活性：可以将任何线性学习算法扩展为非线性版本
理论基础：表示定理为核方法提供了坚实的理论基础

核化的优势：

统一框架：为各种线性学习算法提供了统一的非线性扩展方法
易于实现：只需识别算法中的内积运算，用核函数替换即可
实用性强：通过选择合适的核函数，可以处理各种复杂的非线性问题

实际应用：

核方法是机器学习中处理非线性问题的重要工具
通过核化，可以将各种线性学习算法扩展为非线性版本
选择合适的核函数是核方法应用的关键
核方法在支持向量机、核主成分分析、核线性判别分析等领域有广泛应用