神经网络原理 第六章:支持向量机

一、 简介 (6.1节)

支持向量机 是在第2章统计学习理论基础上发展起来的一类有教师学习机器 。与多层感知器(基于经验风险最小化)不同,SVM遵循结构风险最小化原则 ,通过最小化经验风险与置信区间之和,旨在获得更好的泛化能力

核心思想 :SVM的目标是在特征空间中寻找一个最优超平面 ,将不同类别的样本分开。所谓"最优",是指该超平面不仅能正确分类训练样本,还能使两类样本到超平面的间隔 最大。这使得SVM在处理高维数据、小样本问题时表现出色。

通俗理解 :想象你要在两组人之间划一条分界线。最朴素的方法是随便划一条能分开的线,但这条线可能离某一组人太近,稍有扰动就会误判。SVM的策略是:找到一条离两组人都最远的线 。这条线不仅分开了当前的人,而且对后来可能出现的、有轻微变化的人,也有最大的容错空间。这条线就是"最优超平面",而离这条线最近的那些人(训练样本)就是支持向量,他们"撑起"了这个决策边界。


二、 线性可分模式的最优超平面 (6.2节)

这是SVM最基础的情形,假设训练数据是线性可分的。

💡 核心公式通俗讲解:间隔与对偶问题

  1. 决策函数与间隔 给定线性可分的数据集,超平面方程可以写成: wTx+b=0 分类决策函数为: y=sgn(wTx+b)间隔是样本点到超平面的距离。对于样本点 (xi,yi),其中 yi∈{+1,−1},其函数间隔为 γi=yi(wTxi+b)。几何间隔为 ∥w∥γi。

通俗讲解 :函数间隔是一个"按比例"的度量,受参数 w,b 缩放影响;几何间隔才是真正的物理距离。SVM要最大化的是所有样本的最小几何间隔

  1. 优化问题:最大化间隔 最大化最小几何间隔,等价于: maxw,b∥w∥1s.t.yi(wTxi+b)≥1,∀i 为方便求解,转换为凸二次规划问题: minw,b21∥w∥2s.t.yi(wTxi+b)−1≥0,∀i
  2. 拉格朗日对偶问题 引入拉格朗日乘子 αi≥0,构造拉格朗日函数: L(w,b,α)=21∥w∥2−∑i=1Nαi[yi(wTxi+b)−1] 对 w 和 b 求偏导并令其为0,得到对偶问题: maxα∑i=1Nαi−21∑i=1N∑j=1NαiαjyiyjxiTxj s.t.∑i=1Nαiyi=0,αi≥0

通俗讲解 :原始问题直接在特征空间优化超平面参数 w,b。对偶问题则转化为在样本空间优化拉格朗日乘子 α。这个转变至关重要:

  1. 简化约束:不等式约束变成了更简单的 αi​≥0 和一个等式约束。

  2. 自然引入核函数:对偶问题中样本点仅以内积 xiT​xj​ 形式出现,这为后续使用核函数解决非线性问题埋下伏笔。

  3. 确定支持向量 :解对偶问题后,大部分 αi​ 为0,只有少数 αi​>0 对应的样本点才是支持向量,它们是决定超平面的关键样本。


三、 不可分模式的最优超平面 (6.3节)

实际数据往往是线性不可分的,即存在噪声或异常点。

解决方案 :引入松弛变量 ξi​≥0,允许某些样本点违反间隔约束,但要付出代价。

优化问题变为:

minw,b,ξ​21​∥w∥2+C∑i=1N​ξi​

s.t.yi​(wTxi​+b)≥1−ξi​,ξi​≥0,∀i

通俗讲解

  • ξi​:是"特许权证",允许第 i 个样本点比正常的支持向量更靠近超平面,甚至误分类。

  • C:是"惩罚系数"。

  • C 很大:对误分类的惩罚极重,模型会竭力避免误分类,但可能导致过拟合(间隔变窄)。

  • C 很小:对误分类较宽容,倾向于寻找更大的间隔,但可能欠拟合。

  • 权衡 :C 控制着 "最大化间隔""最小化训练误差" 之间的平衡。

相应的对偶问题约束变为 0≤αi​≤C。


四、 怎样建立用于模式识别的支持向量机 (6.4节)

对于非线性可分 问题,SVM通过核技巧将数据映射到高维特征空间,在其中寻找线性最优超平面。

💡 核心概念:核函数

  1. 映射思想:根据Cover定理(第5章),将数据非线性映射 Φ:Rd→RD 到高维空间 F 后,数据更有可能线性可分。
  2. 核技巧 :注意到对偶问题中样本点以内积形式出现。在高维空间 F 中的内积 ⟨Φ(xi),Φ(xj)⟩F 可以用原始空间中的核函数 K(xi,xj) 来计算,而无需显式计算映射 Φ。 K(xi,xj)=⟨Φ(xi),Φ(xj)⟩F

通俗讲解 :核技巧是SVM处理非线性问题的"魔法"。它相当于告诉我们:你不用关心"升维"这个复杂的过程具体是什么,只要在低维空间里算一个"相似度核"(比如多项式核、高斯核),它就直接等价于在高维空间里算好了内积。 这样,我们既享受了高维空间线性可分的便利,又避免了"维度灾难"和显式映射的计算负担。

  1. 决策函数 最终的决策函数变为: f(x)=sgn(∑i=1NαiyiK(xi,x)+b) 求和仅对支持向量进行。

五、 例子:XOR问题 (6.5节)

异或问题是验证SVM非线性能力的经典案例。

  • 问题:在二维输入空间,XOR问题线性不可分。
  • SVM解决方案:使用一个非线性核函数(如二次多项式核 K(x,z)=(xTz+1)2)。SVM会自动将数据映射到一个高维空间(例如,对于二次核,相当于映射到包含所有二次单项式的空间),在这个空间中,XOR问题变成线性可分,从而找到最优超平面。

通俗讲解:这再次印证了Cover定理。通过核函数,SVM在"幕后"将二维平面上的红蓝球"举"到了一个三维(或更高维)空间,在那个空间里轻松地插上一块平板(超平面)将它们分开。整个过程我们只用了原始二维坐标来计算核函数。


六、 ε-不敏感损失函数与支持向量回归 (6.7 - 6.8节)

SVM不仅用于分类,也可用于回归,即支持向量回归。

💡 核心公式通俗讲解:ε-管

在SVR中,我们预测一个连续值。引入 ε-不敏感损失函数

Lε​(d,f(x))={∣d−f(x)∣−ε,0,​if ∣d−f(x)∣>εotherwise​

通俗讲解

  • ε:是一个"容忍度"。如果预测值 f(x) 与真实值 d 的差距在 ε 之内,则认为这次预测是"完美"的,损失为0。

  • ε-管:可以想象在拟合函数 f(x) 周围拉起一个宽度为 2ε 的"管子"。只有当样本点落到管子外面时,才会产生损失。

  • 目标 :SVR的目标是找到一个"平坦"(参数范数小)的函数,同时让尽可能多的样本点落在 ε-管内,只有那些落在管外的点才需要"拉"回来,成为支持向量

相应的优化问题是在松弛变量的控制下,最小化函数的复杂度(类似分类问题中的 21​∥w∥2)与违反管外损失的总和。


七、 小结与讨论 (6.9节)

支持向量机的优势

  1. 理论基础坚实:基于结构风险最小化原则和统计学习理论。
  2. 泛化能力强:特别适合小样本、高维数据。
  3. 全局最优解:优化问题是凸二次规划,有唯一全局最优解(避免陷入局部极小)。
  4. 核函数灵活性:通过选择不同的核函数,可以灵活处理各种非线性问题。
  5. 稀疏性:决策函数只依赖于少数支持向量,存储和预测效率高。

支持向量机的局限

  1. 大规模数据训练困难:传统求解二次规划的计算和存储开销随样本数平方增长。
  2. 核函数与参数选择:缺乏统一的理论指导,常需经验尝试(如 C,γ 等)。
  3. 对缺失数据敏感:对数据预处理要求较高。

🗺️ 第六章知识全景脑图

复制代码
<code>mindmap
  root((神经网络原理<br/>第六章 支持向量机))
    简介(6.1)
      基于统计学习理论
      结构风险最小化原则
      目标(寻找最优超平面)
      核心(间隔最大化)
    线性可分最优超平面(6.2)
      决策函数与超平面
      间隔定义(函数间隔与几何间隔)
      优化问题
        最大化最小几何间隔
        等价于最小化‖w‖²
      拉格朗日对偶问题
        转化到样本空间求解
        引入核函数的契机
        支持向量的定义(α>0)
    不可分最优超平面(6.3)
      线性不可分情况
      引入松弛变量ξ
      引入惩罚参数C
        权衡间隔与训练误差
      对偶问题约束变化(0≤α≤C)
    构建支持向量机(6.4)
      非线性可分问题
      核技巧核心思想
        映射到高维空间
        用核函数计算高维内积
      决策函数
        f = sgn(ΣαᵢyᵢK(xᵢ,x)+b)
        仅依赖支持向量
    例子:XOR问题(6.5)
      验证非线性能力
      使用多项式核解决
    ε-不敏感损失与SVR(6.7-6.8)
      SVM用于回归
      ε-不敏感损失函数
        定义(ε-管外才有损失)
        ε含义(容忍度)
      优化目标
        函数平坦 + 管内样本多
    小结与讨论(6.9)
      优势
        理论坚实,泛化强
        全局最优,解稀疏
        核函数灵活
      局限
        大规模数据计算难
        核/参数选择凭经验
        对缺失数据敏感
</code>

💡 第六章学习要点

本章引入了在统计学习理论框架下诞生的强大模型。重点掌握:

  1. 间隔最大化的几何直观和数学表述,理解其对泛化能力的保证。
  2. 对偶问题的重要性:它是引入核函数和确定支持向量的桥梁。
  3. 核函数的"魔法":它如何在避免显式映射的同时,让SVM具备处理非线性问题的能力。
  4. 松弛变量与C参数如何控制SVM对误分类的容忍度。
  5. SVRε-不敏感损失的思想:它使得回归函数只关注那些"真正"重要的点(管外的点),从而获得稀疏、鲁棒的解。
相关推荐
情绪总是阴雨天~1 小时前
机器学习与深度学习核心问题解决方案:过拟合与样本不均衡
人工智能·深度学习·机器学习
AI科技星2 小时前
基于代数拓扑与等腰梯形素数对网格【乖乖数学】
人工智能·算法·决策树·机器学习·数学建模·数据挖掘·机器人
2zcode2 小时前
基于MATLAB与SVM实现河道水面漂浮物的自动检测与识别
人工智能·支持向量机·matlab
糖炒栗子03262 小时前
最小二乘优化笔记:从损失函数、正则项到 BA / 图优化
人工智能·笔记·机器学习
AI科技星2 小时前
第 24 分册:濒死体验与灵魂出窍·数理修行篇(2026 年 5 月 11 日增补版)
人工智能·线性代数·机器学习·量子计算·agi
南子北游2 小时前
计算机视觉学习(三)全连接神经网络
神经网络·学习·计算机视觉
余俊晖2 小时前
图文混合文档的轻量级多模态listwise重排框架:Rank-Nexus
人工智能·算法·机器学习
醉舞经阁半卷书12 小时前
LangGraph详解
开发语言·人工智能·python·深度学习·机器学习·自然语言处理
仙女修炼史2 小时前
多任务之间的任务亲密度MTI-Net
神经网络