神经网络原理第六章：支持向量机

一、简介 (6.1节)

支持向量机 是在第2章统计学习理论基础上发展起来的一类有教师学习机器 。与多层感知器（基于经验风险最小化）不同，SVM遵循结构风险最小化原则 ，通过最小化经验风险与置信区间之和，旨在获得更好的泛化能力。

核心思想 ：SVM的目标是在特征空间中寻找一个最优超平面 ，将不同类别的样本分开。所谓"最优"，是指该超平面不仅能正确分类训练样本，还能使两类样本到超平面的间隔最大。这使得SVM在处理高维数据、小样本问题时表现出色。

通俗理解 ：想象你要在两组人之间划一条分界线。最朴素的方法是随便划一条能分开的线，但这条线可能离某一组人太近，稍有扰动就会误判。SVM的策略是：找到一条离两组人都最远的线 。这条线不仅分开了当前的人，而且对后来可能出现的、有轻微变化的人，也有最大的容错空间。这条线就是"最优超平面"，而离这条线最近的那些人（训练样本）就是支持向量，他们"撑起"了这个决策边界。

二、线性可分模式的最优超平面 (6.2节)

这是SVM最基础的情形，假设训练数据是线性可分的。

💡 核心公式通俗讲解：间隔与对偶问题

决策函数与间隔 给定线性可分的数据集，超平面方程可以写成： wTx+b=0 分类决策函数为： y=sgn(wTx+b)间隔是样本点到超平面的距离。对于样本点 (xi,yi)，其中 yi∈{+1,−1}，其函数间隔为 γi=yi(wTxi+b)。几何间隔为 ∥w∥γi。

通俗讲解 ：函数间隔是一个"按比例"的度量，受参数 w,b 缩放影响；几何间隔才是真正的物理距离。SVM要最大化的是所有样本的最小几何间隔。

优化问题：最大化间隔 最大化最小几何间隔，等价于： maxw,b∥w∥1s.t.yi(wTxi+b)≥1,∀i 为方便求解，转换为凸二次规划问题： minw,b21∥w∥2s.t.yi(wTxi+b)−1≥0,∀i
拉格朗日对偶问题 引入拉格朗日乘子 αi≥0，构造拉格朗日函数： L(w,b,α)=21∥w∥2−∑i=1Nαi $yi(wTxi+b)-1$ 对 w 和 b 求偏导并令其为0，得到对偶问题： maxα∑i=1Nαi−21∑i=1N∑j=1NαiαjyiyjxiTxj s.t.∑i=1Nαiyi=0,αi≥0

通俗讲解 ：原始问题直接在特征空间优化超平面参数 w,b。对偶问题则转化为在样本空间优化拉格朗日乘子 α。这个转变至关重要：

简化约束：不等式约束变成了更简单的 αi≥0 和一个等式约束。

自然引入核函数：对偶问题中样本点仅以内积 xiTxj 形式出现，这为后续使用核函数解决非线性问题埋下伏笔。

确定支持向量 ：解对偶问题后，大部分 αi 为0，只有少数 αi>0 对应的样本点才是支持向量，它们是决定超平面的关键样本。

三、不可分模式的最优超平面 (6.3节)

实际数据往往是线性不可分的，即存在噪声或异常点。

解决方案 ：引入松弛变量 ξi≥0，允许某些样本点违反间隔约束，但要付出代价。

优化问题变为：

minw,b,ξ21∥w∥2+C∑i=1Nξi

s.t.yi(wTxi+b)≥1−ξi,ξi≥0,∀i

通俗讲解：

ξi：是"特许权证"，允许第 i 个样本点比正常的支持向量更靠近超平面，甚至误分类。

C：是"惩罚系数"。

C 很大：对误分类的惩罚极重，模型会竭力避免误分类，但可能导致过拟合（间隔变窄）。

C 很小：对误分类较宽容，倾向于寻找更大的间隔，但可能欠拟合。

权衡：C 控制着 "最大化间隔" 与 "最小化训练误差" 之间的平衡。

相应的对偶问题约束变为 0≤αi≤C。

四、怎样建立用于模式识别的支持向量机 (6.4节)

对于非线性可分 问题，SVM通过核技巧将数据映射到高维特征空间，在其中寻找线性最优超平面。

💡 核心概念：核函数

映射思想：根据Cover定理（第5章），将数据非线性映射 Φ:Rd→RD 到高维空间 F 后，数据更有可能线性可分。
核技巧 ：注意到对偶问题中样本点以内积形式出现。在高维空间 F 中的内积 ⟨Φ(xi),Φ(xj)⟩F 可以用原始空间中的核函数 K(xi,xj) 来计算，而无需显式计算映射 Φ。 K(xi,xj)=⟨Φ(xi),Φ(xj)⟩F

通俗讲解 ：核技巧是SVM处理非线性问题的"魔法"。它相当于告诉我们：你不用关心"升维"这个复杂的过程具体是什么，只要在低维空间里算一个"相似度核"（比如多项式核、高斯核），它就直接等价于在高维空间里算好了内积。这样，我们既享受了高维空间线性可分的便利，又避免了"维度灾难"和显式映射的计算负担。

决策函数 最终的决策函数变为： f(x)=sgn(∑i=1NαiyiK(xi,x)+b) 求和仅对支持向量进行。

五、例子：XOR问题 (6.5节)

异或问题是验证SVM非线性能力的经典案例。

问题：在二维输入空间，XOR问题线性不可分。
SVM解决方案：使用一个非线性核函数（如二次多项式核 K(x,z)=(xTz+1)2）。SVM会自动将数据映射到一个高维空间（例如，对于二次核，相当于映射到包含所有二次单项式的空间），在这个空间中，XOR问题变成线性可分，从而找到最优超平面。

通俗讲解：这再次印证了Cover定理。通过核函数，SVM在"幕后"将二维平面上的红蓝球"举"到了一个三维（或更高维）空间，在那个空间里轻松地插上一块平板（超平面）将它们分开。整个过程我们只用了原始二维坐标来计算核函数。

六、 ε-不敏感损失函数与支持向量回归 (6.7 - 6.8节)

SVM不仅用于分类，也可用于回归，即支持向量回归。

💡 核心公式通俗讲解：ε-管

在SVR中，我们预测一个连续值。引入 ε-不敏感损失函数：

Lε(d,f(x))={∣d−f(x)∣−ε,0,if ∣d−f(x)∣>εotherwise

通俗讲解：

ε：是一个"容忍度"。如果预测值 f(x) 与真实值 d 的差距在 ε 之内，则认为这次预测是"完美"的，损失为0。

ε-管：可以想象在拟合函数 f(x) 周围拉起一个宽度为 2ε 的"管子"。只有当样本点落到管子外面时，才会产生损失。

目标：SVR的目标是找到一个"平坦"（参数范数小）的函数，同时让尽可能多的样本点落在 ε-管内，只有那些落在管外的点才需要"拉"回来，成为支持向量。

相应的优化问题是在松弛变量的控制下，最小化函数的复杂度（类似分类问题中的 21∥w∥2）与违反管外损失的总和。

七、小结与讨论 (6.9节)

支持向量机的优势：

理论基础坚实：基于结构风险最小化原则和统计学习理论。
泛化能力强：特别适合小样本、高维数据。
全局最优解：优化问题是凸二次规划，有唯一全局最优解（避免陷入局部极小）。
核函数灵活性：通过选择不同的核函数，可以灵活处理各种非线性问题。
稀疏性：决策函数只依赖于少数支持向量，存储和预测效率高。

支持向量机的局限：

大规模数据训练困难：传统求解二次规划的计算和存储开销随样本数平方增长。
核函数与参数选择：缺乏统一的理论指导，常需经验尝试（如 C,γ 等）。
对缺失数据敏感：对数据预处理要求较高。

🗺️ 第六章知识全景脑图

复制代码

<code>mindmap
  root((神经网络原理<br/>第六章 支持向量机))
    简介(6.1)
      基于统计学习理论
      结构风险最小化原则
      目标(寻找最优超平面)
      核心(间隔最大化)
    线性可分最优超平面(6.2)
      决策函数与超平面
      间隔定义(函数间隔与几何间隔)
      优化问题
        最大化最小几何间隔
        等价于最小化‖w‖²
      拉格朗日对偶问题
        转化到样本空间求解
        引入核函数的契机
        支持向量的定义(α>0)
    不可分最优超平面(6.3)
      线性不可分情况
      引入松弛变量ξ
      引入惩罚参数C
        权衡间隔与训练误差
      对偶问题约束变化(0≤α≤C)
    构建支持向量机(6.4)
      非线性可分问题
      核技巧核心思想
        映射到高维空间
        用核函数计算高维内积
      决策函数
        f = sgn(ΣαᵢyᵢK(xᵢ,x)+b)
        仅依赖支持向量
    例子：XOR问题(6.5)
      验证非线性能力
      使用多项式核解决
    ε-不敏感损失与SVR(6.7-6.8)
      SVM用于回归
      ε-不敏感损失函数
        定义(ε-管外才有损失)
        ε含义(容忍度)
      优化目标
        函数平坦 + 管内样本多
    小结与讨论(6.9)
      优势
        理论坚实，泛化强
        全局最优，解稀疏
        核函数灵活
      局限
        大规模数据计算难
        核/参数选择凭经验
        对缺失数据敏感
</code>

💡 第六章学习要点：

本章引入了在统计学习理论框架下诞生的强大模型。重点掌握：

间隔最大化的几何直观和数学表述，理解其对泛化能力的保证。
对偶问题的重要性：它是引入核函数和确定支持向量的桥梁。
核函数的"魔法"：它如何在避免显式映射的同时，让SVM具备处理非线性问题的能力。
松弛变量与C参数如何控制SVM对误分类的容忍度。
SVR 中 ε-不敏感损失的思想：它使得回归函数只关注那些"真正"重要的点（管外的点），从而获得稀疏、鲁棒的解。

神经网络原理 第六章：支持向量机

一、 简介 (6.1节)

二、 线性可分模式的最优超平面 (6.2节)