学习笔记二十三：支持向量机-间隔与支持向量

分类学习的目标是在样本空间中找到一个划分超平面，将不同类别的样本分开。

问题：可能存在多个划分超平面都能正确分类，应该选择哪一个？

直观想法 ：选择位于两类训练样本"正中间"的划分超平面，因为该超平面对训练样本局部扰动的"容忍"性最好，具有最强的泛化能力。

在样本空间中，划分超平面可通过如下线性方程来描述：

wTx+b=0w^T x + b = 0wTx+b=0

其中：

样本空间中任意点 xxx 到超平面 (w,b)(w, b)(w,b) 的距离为：

r=∣wTx+b∣∣∣w∣∣r = \frac{|w^T x + b|}{||w||}r=∣∣w∣∣∣wTx+b∣

支持向量：距离超平面最近的训练样本点，它们决定了划分超平面的位置和方向。即使删除其他所有样本点，只保留支持向量，划分超平面也不会改变。

间隔：两个异类支持向量到超平面的距离之和，记为：

γ=2∣∣w∣∣\gamma = \frac{2}{||w||}γ=∣∣w∣∣2

间隔越大，分类的置信度越高，对训练样本的局部扰动和噪声的容忍性越强。

假设超平面 (w,b)(w, b)(w,b) 能将训练样本正确分类，对于 (xi,yi)∈D(x_i, y_i) \in D(xi,yi)∈D：

统一表示为：

yi(wTxi+b)≥1,i=1,2,...,my_i(w^T x_i + b) \ge 1, \quad i = 1, 2, \ldots, myi(wTxi+b)≥1,i=1,2,...,m

等号成立时，样本点位于间隔边界上，这些点就是支持向量。

为了找到具有最大间隔 的划分超平面，需要最大化间隔 γ=2∣∣w∣∣\gamma = \frac{2}{||w||}γ=∣∣w∣∣2，这等价于最小化 ∣∣w∣∣2||w||^2∣∣w∣∣2。

支持向量机的基本型：

min⁡w,b12∣∣w∣∣2\min_{w,b} \frac{1}{2}||w||^2w,bmin21∣∣w∣∣2

s.t.yi(wTxi+b)≥1,i=1,2,...,m.\text{s.t.} \quad y_i(w^T x_i + b) \ge 1, \quad i = 1, 2, \ldots, m.s.t.yi(wTxi+b)≥1,i=1,2,...,m.

这是一个凸二次规划问题，存在全局最优解。

优化目标的意义：

核心概念：

SVM的基本型：

min⁡w,b12∣∣w∣∣2\min_{w,b} \frac{1}{2}||w||^2w,bmin21∣∣w∣∣2

s.t.yi(wTxi+b)≥1,i=1,2,...,m.\text{s.t.} \quad y_i(w^T x_i + b) \ge 1, \quad i = 1, 2, \ldots, m.s.t.yi(wTxi+b)≥1,i=1,2,...,m.

优势：