支持向量机(Support Vector Machine, SVM)是机器学习中经典的监督学习模型,核心目标是在样本空间中找到最优划分超平面,实现对不同类别样本的精准分类,尤其在小样本、高维数据场景中表现优异。本次学习围绕 SVM 的基本原理、优化逻辑、求解方法及拓展应用展开,现将核心内容总结如下:
一、SVM 核心基础:超平面与 margin
1. 基本需求与超平面定义
SVM 的核心任务是在样本空间中找到一个划分超平面,将不同类别的样本完全分离。从数学角度看,超平面是 n 维空间到 n-1 维空间的映射子空间,由 n 维向量w(法向量,决定超平面方向)和实数b(截距,决定超平面位置)定义,其方程为:wTx+b=0
- 二维空间中,超平面是直线(如Ax+By+C=0);
- 三维空间中,超平面是平面;
- 更高维空间中,超平面虽无法直观可视化,但数学定义一致。
2. 理想超平面:最大化 margin
SVM 追求的 "理想超平面",并非任意可分离样本的超平面,而是对训练样本局部扰动 "容忍性" 最强的超平面 ------ 其本质是最大化 margin(边际)。
- margin 定义:两类样本中距离超平面最近的点(即 "支持向量")到超平面的距离之和,公式为margin=2d(d为单个最近点到超平面的距离)。
- 点到超平面距离:对于 n 维空间中的点x,到超平面wTx+b=0的距离公式为:d=∥w∥∣wTx+b∣(∥w∥是向量w的 L2 范数)。
二、SVM 优化目标与约束
1. 样本标签与决策方程
- 样本标签:为简化计算,SVM 将正例标签定义为yi=+1,负例标签定义为yi=−1。
- 决策方程:原始空间中,决策函数为y(x)=wTΦ(x)+b,其中Φ(x)是特征映射函数,用于将低维不可分数据映射到高维可分空间(后续 "核变换" 将详细说明)。
2. 优化目标转化
SVM 的核心是 "最大化 margin",结合距离公式可推导为:
- 原始目标:最大化∥w∥1(因margin=∥w∥2,最大化 margin 等价于最小化∥w∥)。
- 约束条件:为确保所有样本被正确分类,需满足yi(wTΦ(xi)+b)≥1(通过对w和b的放缩,使最近样本到超平面的距离为∥w∥1)。
- 目标转化:为简化计算(将极大值问题转为极小值问题),最终优化目标为:minw,b21∥w∥2,约束条件yi(wTΦ(xi)+b)≥1(i=1,2,...,n)。
三、SVM 求解:拉格朗日乘子法与对偶问题
由于优化目标含约束条件,SVM 采用拉格朗日乘子法将其转化为无约束的对偶问题求解,核心步骤如下:
1. 构建拉格朗日函数
对带约束的优化问题,引入拉格朗日乘子αi≥0(对应每个样本的约束),构建拉格朗日函数:L(w,b,α)=21∥w∥2−∑i=1nαi[yi(wTΦ(xi)+b)−1]
其中αi≥0是约束条件(KKT 条件之一)。
2. 对偶问题转化
根据对偶理论,原问题minw,bmaxαL(w,b,α)可转化为对偶问题maxαminw,bL(w,b,α),通过对w和b求偏导并令其为 0,得到关键条件:
- 对w求偏导:w=∑i=1nαiyiΦ(xi)(超平面由支持向量决定,非支持向量的αi=0);
- 对b求偏导:∑i=1nαiyi=0(对偶问题的约束条件之一)。
3. 对偶问题求解
将w=∑i=1nαiyiΦ(xi)代入拉格朗日函数,消去w和b,最终对偶问题为:maxα∑i=1nαi−21∑i=1n∑j=1nαiαjyiyjΦ(xi)TΦ(xj)
约束条件:∑i=1nαiyi=0,αi≥0(i=1,2,...,n)。
4. 求解实例关键结论
通过具体实例求解发现,对偶问题的最优解α∗通常仅少数样本非零(即 "支持向量"),其余样本αi=0。将α∗代入w和b的表达式,即可得到最终超平面方程。例如某实例中,最优α=(0.25,0,0.25),计算得w=(0.5,0.5),b=−2,超平面方程为0.5x1+0.5x2−2=0。
四、SVM 拓展:软间隔与核变换
原始 SVM(硬间隔 SVM)要求样本完全线性可分,但实际数据常含噪音或异常值,导致硬间隔无法适用;同时低维空间中线性不可分的数据,在高维空间可能线性可分。为此,SVM 引入 "软间隔" 和 "核变换" 两大拓展。
1. 软间隔:容忍少量分类错误
为解决噪音问题,引入松弛因子ξi≥0,允许部分样本不满足 "yi(wTΦ(xi)+b)≥1",而是满足 "yi(wTΦ(xi)+b)≥1−ξi"。
- 新目标函数:minw,b,ξ21∥w∥2+C∑i=1nξi,其中C>0是惩罚参数 :
- C越大:对分类错误的惩罚越重,模型越倾向于严格分类(接近硬间隔);
- C越小:对分类错误的容忍度越高,模型更关注 margin 最大化。
- 对偶求解:引入拉格朗日乘子后,约束条件变为0≤αi≤C,其余求解逻辑与硬间隔一致。
2. 核变换:解决低维不可分问题
低维空间中线性不可分的数据,可通过特征映射 Φ(x)映射到高维空间,使其线性可分。但高维空间中计算Φ(xi)TΦ(xj)(内积)复杂度极高,因此引入核函数K(xi,xj)=Φ(xi)TΦ(xj),直接在低维空间计算高维内积,避免 "维度灾难"。
常见核函数及特点:
核函数类型 | 表达式 | 适用场景 |
---|---|---|
线性核函数 | K(xi,xj)=xiTxj | 低维线性可分数据,计算简单 |
高斯核函数(RBF) | K(xi,xj)=exp(−2σ2∥xi−xj∥2) | 低维不可分、非线性数据,适应性强(需调参σ) |
核函数优势实例:3 维空间中不可分的样本x=(1,2,3)和y=(4,5,6),映射到 9 维空间后内积计算复杂,但通过高斯核函数可直接在低维空间快速得到结果(如示例中K(x,y)=322=1024)。
五、学习总结与核心启示
- SVM 核心逻辑:通过最大化 margin 找到最优超平面,本质是 "以支持向量为核心" 的线性分类模型,对非支持向量不敏感,因此泛化能力强。
- 求解关键:利用拉格朗日对偶性将带约束的优化问题转化为对偶问题,降低求解复杂度,且最终超平面仅由支持向量决定。
- 拓展价值:软间隔解决了噪音数据的分类问题,核变换突破了低维不可分的限制,使 SVM 可应用于非线性分类场景(如图像识别、文本分类等)。
- 参数影响:惩罚参数C(控制错误容忍度)和核函数参数(如高斯核的σ)对模型性能至关重要,需通过交叉验证等方法调优。
通过本次学习,不仅掌握了 SVM 的数学原理与求解步骤,更理解了其 "化繁为简"(如对偶问题、核函数)的设计思想,为后续应用 SVM 解决实际机器学习问题奠定了基础。