机器学习06——支持向量机(SVM核心思想与求解、核函数、软间隔与正则化、支持向量回归、核方法)

上一章: 机器学习05------多分类学习与类别不平衡
下一章: 机器学习07------贝叶斯分类器
机器学习实战项目: 【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

文章目录

一、间隔与支持向量(SVM的核心思想)

支持向量机(SVM)的核心是在样本空间中寻找最优超平面,实现对不同类别样本的分隔,其关键在于最大化间隔以提升泛化能力。

(一)超平面与间隔
  • 超平面方程 :在d维样本空间中,超平面可表示为 w ⊤ x + b = 0 w^\top x + b = 0 w⊤x+b=0,其中 w w w为法向量(决定超平面方向), b b b为偏置项(决定超平面位置)。
  • 间隔定义 :样本到超平面的距离称为间隔。对于两类样本,需同时考虑正例和反例到超平面的距离,其中支持向量 (离超平面最近的样本)决定了"最大间隔"------即超平面与两侧支持向量的距离之和( 2 / ∥ w ∥ 2/\|w\| 2/∥w∥)。
  • 最优超平面 :目标是找到参数 w w w和 b b b,使间隔最大,即:
    a r g m a x w , b 2 ∥ w ∥ s . t . y i ( w ⊤ x i + b ) ≥ 1 ,   i = 1 , 2 , . . . , m \underset{w, b}{arg max} \frac{2}{\|w\|} \quad s.t. \quad y_i(w^\top x_i + b) \geq 1, \, i=1,2,...,m w,bargmax∥w∥2s.t.yi(w⊤xi+b)≥1,i=1,2,...,m
    (约束条件确保所有样本都在间隔外侧, y i y_i yi为样本标签,+1或-1)。
    该问题可等价转化为最小化 1 2 ∥ w ∥ 2 \frac{1}{2}\|w\|^2 21∥w∥2(简化计算)。

二、对偶问题(SVM的求解转化)

为简化最优超平面的求解,SVM通过拉格朗日乘子法将原始问题转化为对偶问题,便于引入核函数并利用解的稀疏性。

(一)对偶问题的推导
  1. 拉格朗日函数 :引入拉格朗日乘子 α i ≥ 0 \alpha_i \geq 0 αi≥0,构造函数:
    L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 m α i ( y i ( w ⊤ x i + b ) − 1 ) L(w, b, \alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^m \alpha_i\left(y_i(w^\top x_i + b) - 1\right) L(w,b,α)=21∥w∥2−i=1∑mαi(yi(w⊤xi+b)−1)
  2. 偏导为零条件 :对 w w w和 b b b求偏导并令其为零,得到:
    w = ∑ i = 1 m α i y i x i , ∑ i = 1 m α i y i = 0 w = \sum_{i=1}^m \alpha_i y_i x_i, \quad \sum_{i=1}^m \alpha_i y_i = 0 w=i=1∑mαiyixi,i=1∑mαiyi=0
  3. 对偶问题 :将上述结果回代,原始问题转化为最大化:
    ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i ⊤ x j \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^\top x_j i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxi⊤xj
    约束为 ∑ i = 1 m α i y i = 0 \sum_{i=1}^m \alpha_i y_i = 0 ∑i=1mαiyi=0且 α i ≥ 0 \alpha_i \geq 0 αi≥0。
(二)解的稀疏性

根据KKT条件,仅支持向量对应的 α i > 0 \alpha_i > 0 αi>0(非支持向量的 α i = 0 \alpha_i = 0 αi=0),因此最终模型仅依赖支持向量:
f ( x ) = w ⊤ x + b = ∑ i = 1 m α i y i x i ⊤ x + b f(x) = w^\top x + b = \sum_{i=1}^m \alpha_i y_i x_i^\top x + b f(x)=w⊤x+b=i=1∑mαiyixi⊤x+b

这种稀疏性使SVM在预测时仅需计算与支持向量的内积,提升效率。

三、核函数(处理线性不可分问题)

当样本在原始空间线性不可分时,SVM通过核函数将样本映射到高维特征空间,使其线性可分,同时避免显式计算高维映射。

(一)核函数的作用
  • 映射与内积 :设样本 x x x在高维空间的映射为 ϕ ( x ) \phi(x) ϕ(x),则超平面可表示为 f ( x ) = w ⊤ ϕ ( x ) + b f(x) = w^\top \phi(x) + b f(x)=w⊤ϕ(x)+b。核函数 κ ( x i , x j ) = ϕ ( x i ) ⊤ ϕ ( x j ) \kappa(x_i, x_j) = \phi(x_i)^\top \phi(x_j) κ(xi,xj)=ϕ(xi)⊤ϕ(xj)直接计算高维空间内积,避免维度灾难。
  • Mercer定理:若一个对称函数对应的核矩阵半正定,则它可作为核函数使用(保证映射存在)。
(二)常用核函数
名称 表达式 参数说明
线性核 κ ( x i , x j ) = x i ⊤ x j \kappa(x_i, x_j) = x_i^\top x_j κ(xi,xj)=xi⊤xj 适用于线性可分数据
多项式核 κ ( x i , x j ) = ( x i ⊤ x j + 1 ) d \kappa(x_i, x_j) = (x_i^\top x_j + 1)^d κ(xi,xj)=(xi⊤xj+1)d d ≥ 1 d \geq 1 d≥1为多项式次数
高斯核 κ ( x i , x j ) = exp ⁡ ( − ∣ x i − x j ∣ 2 2 δ 2 ) \kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|^2}{2\delta^2}) κ(xi,xj)=exp(−2δ2∣xi−xj∣2) δ > 0 \delta > 0 δ>0为带宽(控制平滑度)
拉普拉斯核 κ ( x i , x j ) = exp ⁡ ( − ∣ x i − x j ∣ δ ) \kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|}{\delta}) κ(xi,xj)=exp(−δ∣xi−xj∣) δ > 0 \delta > 0 δ>0,类似高斯核但更鲁棒
Sigmoid核 κ ( x i , x j ) = tanh ⁡ ( β x i ⊤ x j + θ ) \kappa(x_i, x_j) = \tanh(\beta x_i^\top x_j + \theta) κ(xi,xj)=tanh(βxi⊤xj+θ) β > 0 , θ < 0 \beta > 0, \theta < 0 β>0,θ<0,模拟神经网络

四、软间隔与正则化(应对现实数据)

现实中数据常存在噪声或非线性,难以完全线性可分,因此引入"软间隔",允许部分样本不满足间隔约束,通过正则化平衡间隔最大化与错误样本数量。

(一)软间隔的原始问题

目标是最小化

1 2 ∥ w ∥ 2 + C ∑ i = 1 m l 0 / 1 ( y i ( w ⊤ ϕ ( x i ) + b ) − 1 ) \frac{1}{2}\|w\|^2 + C\sum_{i=1}^m l_{0/1}(y_i(w^\top \phi(x_i) + b) - 1) 21∥w∥2+Ci=1∑ml0/1(yi(w⊤ϕ(xi)+b)−1)

其中:

  • l 0 / 1 l_{0/1} l0/1为0/1损失函数(样本不满足约束时为1,否则为0);
  • C > 0 C > 0 C>0为正则化参数,控制对错误样本的惩罚力度( C C C越大,对错误的容忍度越低)。

由于0/1损失函数非凸,实际使用hinge损失 ( l ( z ) = max ⁡ ( 0 , 1 − z ) l(z) = \max(0, 1 - z) l(z)=max(0,1−z))替代,其数学性质更优且是0/1损失的上界。

(二)对偶问题与正则化

软间隔的对偶问题与硬间隔类似,但 α i \alpha_i αi需满足 0 ≤ α i ≤ C 0 \leq \alpha_i \leq C 0≤αi≤C。正则化项 1 2 ∥ w ∥ 2 \frac{1}{2}\|w\|^2 21∥w∥2控制模型复杂度,经验风险项 ∑ l ( ⋅ ) \sum l(\cdot) ∑l(⋅)控制训练误差,形成结构风险最小化框架,可推广至其他模型(如LASSO、逻辑回归)。

五、支持向量回归(SVR)

SVM不仅用于分类,还可扩展为回归模型(SVR),允许预测值与真实值存在一定偏差( ϵ \epsilon ϵ间隔带),以保持稀疏性。

(一)核心思想
  • 间隔带 :当预测值 f ( x i ) f(x_i) f(xi)与真实值 y i y_i yi的偏差在 ϵ \epsilon ϵ以内时,损失为0;超出则计算损失( ξ i + ξ ^ i \xi_i + \hat{\xi}_i ξi+ξ^i,分别对应高估和低估)。
  • 原始问题
    min ⁡ w , b , ξ i , ξ ^ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ( ξ i + ξ ^ i ) \min_{w, b, \xi_i, \hat{\xi}i} \frac{1}{2}\|w\|^2 + C\sum{i=1}^m (\xi_i + \hat{\xi}_i) w,b,ξi,ξ^imin21∥w∥2+Ci=1∑m(ξi+ξ^i)
    约束为 y i − f ( x i ) ≤ ϵ + ξ i y_i - f(x_i) \leq \epsilon + \xi_i yi−f(xi)≤ϵ+ξi, f ( x i ) − y i ≤ ϵ + ξ ^ i f(x_i) - y_i \leq \epsilon + \hat{\xi}_i f(xi)−yi≤ϵ+ξ^i, ξ i , ξ ^ i ≥ 0 \xi_i, \hat{\xi}_i \geq 0 ξi,ξ^i≥0。
(二)对偶与预测

SVR的对偶问题通过引入 α i \alpha_i αi和 α ^ i \hat{\alpha}i α^i求解,最终模型为:
f ( x ) = ∑ i = 1 m ( α ^ i − α i ) κ ( x i , x ) + b f(x) = \sum
{i=1}^m (\hat{\alpha}_i - \alpha_i) \kappa(x_i, x) + b f(x)=i=1∑m(α^i−αi)κ(xi,x)+b

仅与支持向量(偏差超出 ϵ \epsilon ϵ的样本)有关,保持稀疏性。

六、核方法(扩展与推广)

核函数的思想可推广至其他线性模型,形成"核化"模型,通过高维映射提升非线性拟合能力。

(一)表示定理

任何基于核函数的学习模型,其最优解均可表示为训练样本核函数的线性组合,即 h ∗ ( x ) = ∑ i = 1 m α i κ ( x i , x ) + b h^*(x) = \sum_{i=1}^m \alpha_i \kappa(x_i, x) + b h∗(x)=∑i=1mαiκ(xi,x)+b。这为核方法的通用性提供了理论基础。

(二)常见核化模型
  • 核LDA:将样本映射到高维空间后做线性判别分析,提升分类效果;
  • 核PCA:在高维空间进行主成分分析,更好地提取非线性特征。

七、实用工具与软件包

成熟的SVM工具包包括LIBSVM、SVMlight等,支持分类、回归及多种核函数,广泛应用于实际任务(如文档分类、图像识别)。

上一章: 机器学习05------多分类学习与类别不平衡
下一章: 机器学习07------贝叶斯分类器
机器学习实战项目: 【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

相关推荐
victory04319 小时前
Gradio实现中英文切换,不影响页面状态,不得刷新页面情况下
人工智能
微光闪现10 小时前
践行“科技向善”,微乐播捐赠108,888元助力唇腭裂儿童绽放笑容
人工智能
闵帆10 小时前
反演学习器面临的鸿沟
人工智能·学习·机器学习
feasibility.10 小时前
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例
人工智能·python·大模型·nlp·llama·多模态·具身智能
CDA数据分析师干货分享10 小时前
【干货】CDA一级知识点拆解1:《CDA一级商业数据分析》第1章 数据分析思维
数据库·人工智能·数据分析·cda证书·cda数据分析师
梦梦代码精10 小时前
开源、免费、可商用:BuildingAI一站式体验报告
开发语言·前端·数据结构·人工智能·后端·开源·知识图谱
Dingdangcat8610 小时前
YOLOX-L在钢丝绳损伤检测中的应用:基于300轮训练与COCO数据集的智能分类系统详解
人工智能·分类·数据挖掘
AI营销快线10 小时前
2026 GEO服务商评测:原圈科技如何定义AI营销终局?
人工智能
天翼云开发者社区10 小时前
天翼云全栈赋能OpenClaw,打造会干活的专属AI!
人工智能·智能体·openclaw
百***787510 小时前
Clawdbot 技术实战:基于一步 API 快速接入,打造本地化 AI 自动化助手
运维·人工智能·自动化