读懂支持向量机（SVM）

在机器学习的分类算法中，支持向量机（SVM）始终占据着重要地位 ------ 它不像决策树那样直观易懂，却凭借对 "最优划分" 的极致追求，在中小样本、高维数据场景（比如文本分类、图像特征分类）中表现出色。

我们先从最基础的问题入手：分类任务的本质是 "在样本空间里找一个超平面，把不同类别的样本分开"。比如二维数据里的划分直线、三维数据里的划分平面，都是 "超平面" 在低维空间的体现（超平面的维度永远比样本空间低 1 维）。

但 "能分开" 只是最低要求，SVM 追求的是 **"最稳" 的超平面 **------ 什么是 "稳"？就是这个超平面对训练样本的 "局部扰动容忍度最高"。比如下面两个场景：

SVM 里把这个 "最近距离的两倍" 叫做Margin（间隔） ，所以 SVM 的核心优化目标一句话就能说清：最大化 Margin。

既然要最大化间隔，那间隔的大小由谁决定？答案是 "离超平面最近的样本"------ 这些样本就是 SVM 的核心：支持向量。

想象一下：在两类样本中间画超平面，离超平面最近的几个样本（可能是正类的 2 个、负类的 3 个）就像 "支柱" 一样，撑起了整个间隔。其他样本不管离超平面多远，都不会影响间隔的大小和超平面的位置 ------ 这也是 SVM 名字的由来：它只关注 "支持向量" 这个关键少数。

首先，超平面可以用公式表示为：w·x + b = 0

d = |w·x_i + b| / ||w||
（||w||是w的模长，保证距离是正数）

这种 "带约束的优化问题"，常用拉格朗日乘子法求解。核心思路是把 "约束条件" 融入到 "目标函数" 中，转化为无约束问题，再通过求偏导找到最优解。

前面讲的都是 "理想情况"：数据线性可分（能找到超平面完全分开两类样本）。但现实中的数据往往没这么完美，要么有噪音，要么根本线性不可分 ------ 这时候就需要 SVM 的两个 "进阶技巧"。

如果数据里有几个噪音点（比如正类里混了一个离负类很近的样本），强行追求 "完全分对" 会导致超平面的间隔很小，模型泛化能力变差（过拟合）。

SVM 的解决办法是引入松弛因子 ξ_i ，把约束条件放宽为：
y_i·(w·x_i + b) ≥ 1 - ξ_i（ξ_i ≥ 0）

_i=0：样本分对了，且在间隔外侧；

_i>0：样本可能分错，或在间隔内侧（ξ 越大，错得越离谱）。

同时，目标函数也要加一个 "惩罚项"，避免 ξ 太大：
min (||w||²/2 + C·Σξ_i)

这里的C是一个需要我们调整的参数：C很大：惩罚很重，不允许有太多分错的样本（适合噪音少的场景）；C很小：惩罚很轻，可以容忍更多分错的样本（适合噪音多的场景）。

如果数据在低维空间里根本线性不可分（比如 "月亮形""环形" 数据），再怎么调软间隔也没用 ------ 这时候需要一个更巧妙的思路：把低维数据映射到高维空间。

比如二维的环形数据，映射到三维空间后，就能找到一个平面把它们分开。但问题是：高维映射的计算量太大了（比如把 3 维映射到 9 维，内积计算量会翻倍）。

SVM 的 "核函数" 完美解决了这个问题：它不需要真的把数据映射到高维，而是直接计算 "映射后数据的内积"，大大减少计算量。

常用的核函数有两种：

中小样本数据集（样本数几千到几万，太多样本会导致计算慢）；高维数据（比如文本分类的词向量、图像的特征向量）；对泛化能力要求高的场景（因为 SVM 追求最大间隔，抗扰动能力强）。

用 SVM 时，核心是调对 3 个参数：

kernel：线性可分用 "linear"，非线性用 "rbf"（高斯核）；C：控制惩罚力度，噪音多调小，音少调大；γ（仅高斯核）：数据分布密调大，分布稀疏调小。

SVM 的数学原理看起来复杂，但核心逻辑其实很清晰：从 "找最稳的超平面" 出发，通过支持向量聚焦关键样本，用软间隔处理噪音，用核函数解决非线性问题 ------ 每一步都是为了让模型在 "分类准确" 和 "泛化能力" 之间找到最优平衡。