线性可分支持向量机的原理推导

我们从最简单也最基本的线性可分支持向量机的原理推导开始。近似线性可分支持向量机和线性不可分支持向量机的原理推导都会以线性可分支持向量机为基础。

先给线性可分支持向量机一个明确的定义。当训练数据线性可分时，能够通过硬间隔（hard margin）最大化求解对应的凸二次规划问题得到最优线性分隔超平面 w ∗ ⋅ x + b ∗ = 0 w^*·x+b^*=0 w∗⋅x+b∗=0 ，以及相应的分类决策函数 f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x)=sign(w^*·x+b^*) f(x)=sign(w∗⋅x+b∗) ，这种情况就称为线性可分支持向量机。

要求间隔最大化，需要先对间隔进行表示。对于支持向量机而言，一个实例点到线性分隔超平面的距离可以表示为分类预测的可靠性，当分类的线性分隔超平面确定时， ∣ w ⋅ x + b ∣ |w·x+b| ∣w⋅x+b∣ 可以表示点 x x x 与该超平面的距离，同时我们也可以用 w ⋅ x + b w·x+b w⋅x+b 的符号与分类标记 y y y 符号的一致性来判定分类是否正确。所以，对于给定训练样本及线性分隔超平面 w ⋅ x + b = 0 w·x+b=0 w⋅x+b=0 ，线性分隔超平面关于任意样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 的函数间隔可以表示为：
d ^ i = y i ( w ⋅ x i + b ) (9-1) \hat d_i=y_i(w·x_i+b) \tag{9-1} d^i=yi(w⋅xi+b)(9-1)

那么该训练集与线性分隔超平面的间隔可以由该超平面与所有样本点的最小函数间隔决定，即：
d ^ = min ⁡ i = 1 , . . . , N d ^ i (9-2) \hat d=\min_{i=1,...,N}\hat d_i \tag{9-2} d^=i=1,...,Nmind^i(9-2)

为了使间隔不受线性分隔超平面参数 w w w 和 b b b 的变化影响，我们还需要对 w w w 加一个规范化约束 ∥ w ∥ \|w\| ∥w∥ 以固定间隔，通过这种方式将函数间隔转化为几何间隔。这时候线性分隔超平面关于任意样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 的几何间隔可以表示为：
d i = y i ( w ⋅ x i + b ∥ w ∥ ) (9-3) d_i=y_i\left(\frac{w·x_i+b}{\|w\|}\right) \tag{9-3} di=yi(∥w∥w⋅xi+b)(9-3)

训练集与线性分隔超平面的间隔同样可以用 d = min ⁡ i d i d=\min_id_i d=minidi 来表示。

基于线性可分支持向量机求得的最大间隔也叫硬间隔最大化。硬间隔最大化可以直观地理解为以足够的可靠性对训练数据进行分类，据此求得的线性分隔超平面不仅能够将正负实例点分开，而且对于最难分的实例点也能够以足够高的可靠性将其分类。从这一点来看，线性可分支持向量机相较于感知机更稳健。

下面我们将硬间隔最大化形式化为一个条件约束优化问题：
max ⁡ w , b d (9-4) \max_{w,b} \quad d \tag{9-4} w,bmaxd(9-4)

s . t . y i ( w ⋅ x i + b ∣ ∣ w ∣ ∣ ) ⩾ d , i = 1 , 2 , ⋯ , N s.t.\quad y_i\left(\frac{w·x_i+b}{||w||}\right) \geqslant d,\ i=1,2,\cdots,N s.t.yi(∣∣w∣∣w⋅xi+b)⩾d, i=1,2,⋯,N

根据函数间隔与几何间隔之间的关系，式(9-4)可以改写为：
max ⁡ w , b d ^ ∣ ∣ w ∣ ∣ (9-5) \max_{w,b} \quad \frac{\hat d}{||w||} \tag{9-5} w,bmax∣∣w∣∣d^(9-5)

s . t . y i ( w ⋅ x i + b ) ⩾ d ^ , i = 1 , 2 , ⋯ , N s.t.\quad y_i(w·x_i+b) \geqslant \hat d,\ i=1,2,\cdots,N s.t.yi(w⋅xi+b)⩾d^, i=1,2,⋯,N

通过式(9-5)可以看到，函数间隔 d ^ \hat d d^ 的取值实际上并不影响最优化问题的求解。假设这里令 d ^ = 1 \hat d=1 d^=1，则式(9-5)的等价最优化问题可以表示为：
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 (9-6) \min_{w,b} \quad \frac{1}{2}||w||^2 \tag{9-6} w,bmin21∣∣w∣∣2(9-6)

s . t . y i ( w ⋅ x i + b ) − 1 ⩾ 0 , i = 1 , 2 , ⋯ , N s.t.\quad y_i(w·x_i+b)-1 \geqslant 0,\ i=1,2,\cdots,N s.t.yi(w⋅xi+b)−1⩾0, i=1,2,⋯,N

至此，硬间隔最大化问题就转化为了一个典型的凸二次规划问题（convex quadratic programming problem）。构建式(9-6)的拉格朗日函数，如下：
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 N α i y i ( w ⋅ x i + b ) + ∑ i = 1 N α i (9-7) L(w, b, \alpha) = \frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_iy_i(w·x_i+b)+\sum_{i=1}^{N}\alpha_i \tag{9-7} L(w,b,α)=21∣∣w∣∣2−i=1∑Nαiyi(w⋅xi+b)+i=1∑Nαi(9-7)

直接对式(9-7)进行优化求解是可以的，但求解效率偏低。根据凸优化理论中的拉格朗日对偶性，将式(9-6)作为原始问题（primal problem），求解该原始问题的对偶问题（dual problem）。

这里补充一下拉格朗日对偶性相关知识。假设 f ( x ) f(x) f(x)、 c i ( x ) c_i(x) ci(x) 和 h j ( x ) h_j(x) hj(x) 是定义在 R n \mathbf{R}^n Rn 上的连续可微函数，有如下约束优化问题：
min ⁡ x ∈ R n f ( x ) (9-8) \min_{x∈\mathbf{R}^n} f(x) \tag{9-8} x∈Rnminf(x)(9-8)

s . t . c i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , p s.t.\quad c_i(x)≤0,\ i=1,2,\cdots,p s.t.ci(x)≤0, i=1,2,⋯,p

h j ( x ) = 0 , j = 1 , 2 , ⋯ , q h_j(x)=0,\ j=1,2,\cdots,q hj(x)=0, j=1,2,⋯,q

式(9-8)即为约束优化问题的原始问题。然后引入拉格朗日函数，如下：
L ( x , α , β ) = f ( x ) + ∑ i = 1 p α i c i ( x ) + ∑ j = 1 q β j h j ( x ) (9-9) L(x, \alpha, \beta) = f(x) + \sum_{i=1}^{p}\alpha_i c_i(x) + \sum_{j=1}^{q}\beta_j h_j(x) \tag{9-9} L(x,α,β)=f(x)+i=1∑pαici(x)+j=1∑qβjhj(x)(9-9)

其中 x = ( x ( 1 ) , x ( 2 ) , ... , x ( n ) ) ⊤ ∈ R ∗ x=\bigl(x^{(1)}, x^{(2)}, \ldots, x^{(n)}\bigr)^{\top} \in \mathbf{R}^* x=(x(1),x(2),...,x(n))⊤∈R∗， α i \alpha_i αi 和 β j \beta_j βj 为拉格朗日乘子，且 α i ⩾ 0 \alpha_i \geqslant 0 αi⩾0。将式(9-9)的最大化函数 max ⁡ α , β L ( x , α , β ) \max_{\alpha, \beta}L(x, \alpha, \beta) maxα,βL(x,α,β) 设为关于 x x x 的函数：
θ p ( x ) = max ⁡ α , β L ( x , α , β ) (9-10) \theta_p(x) = \max_{\alpha, \beta} L(x, \alpha, \beta) \tag{9-10} θp(x)=α,βmaxL(x,α,β)(9-10)

考虑式(9-10)的极小化问题：
min ⁡ x θ p ( x ) = min ⁡ x max ⁡ α , β L ( x , α , β ) (9-11) \min_x \theta_p(x) = \min_{x} \max_{\alpha, \beta} L(x, \alpha, \beta) \tag{9-11} xminθp(x)=xminα,βmaxL(x,α,β)(9-11)

式(9-11)的解也是原始问题式(9-8)的解，问题 min ⁡ x max ⁡ α , β L ( x , α , β ) \min_{x} \max_{\alpha, \beta} L(x, \alpha, \beta) minxmaxα,βL(x,α,β) 也称广义拉格朗日函数的极小极大化问题。定义该极小极大化问题同时也是原始问题的解为：
p ∗ = min ⁡ x θ p ( x ) (9-12) p^* = \min_x \theta_p(x) \tag{9-12} p∗=xminθp(x)(9-12)

下面再来看对偶问题。对式(9-10)重新定义关于 α , β \alpha, \beta α,β 的函数，如下：
θ d ( α , β ) = min ⁡ x L ( x , α , β ) (9-13) \theta_d(\alpha, \beta) = \min_x L(x, \alpha, \beta) \tag{9-13} θd(α,β)=xminL(x,α,β)(9-13)

考虑式(9-13)的极大化问题：
max ⁡ α , β θ d ( α , β ) = max ⁡ α , β min ⁡ x L ( x , α , β ) (9-14) \max_{\alpha, \beta} \theta_d(\alpha, \beta) = \max_{\alpha, \beta} \min_x L(x, \alpha, \beta) \tag{9-14} α,βmaxθd(α,β)=α,βmaxxminL(x,α,β)(9-14)

式(9-14)也称广义拉格朗日函数的极大极小化问题。将该极大极小化问题转化为约束优化问题，如下：
max ⁡ α , β θ d ( α , β ) = max ⁡ α , β min ⁡ x L ( x , α , β ) s . t . α i ⩾ 0 , i = 1 , 2 , ... , p (9-15) \max_{\alpha, \beta} \theta_d(\alpha, \beta) = \max_{\alpha, \beta} \min_x L(x, \alpha, \beta) \tag{9-15} s.t. \quad \alpha_i \geqslant 0, \; i=1, 2, \ldots, p α,βmaxθd(α,β)=α,βmaxxminL(x,α,β)s.t.αi⩾0,i=1,2,...,p(9-15)

式(9-15)定义的约束优化问题即为原始问题的对偶问题。定义对偶问题的最优解为：
d ∗ = max ⁡ α , β θ d ( α , β ) (9-16) d^* = \max_{\alpha, \beta} \theta_d(\alpha, \beta) \tag{9-16} d∗=α,βmaxθd(α,β)(9-16)

根据拉格朗日对偶性相关推论，假设 x ∗ x^* x∗ 为原始问题式(9-8)的解， α ∗ , β ∗ \alpha^*, \beta^* α∗,β∗ 对偶问题式(9-15)的解，且 d ∗ = p ∗ d^* = p^* d∗=p∗，则它们分别为原始问题和对偶问题的最优解。

下面回到式(9-7)的凸二次规划问题。所以，根据拉格朗日对偶性的有关描述和推论，原始问题为极小极大化问题，其对偶问题则为极大极小化问题：
max ⁡ α min ⁡ w , b L ( w , b , α ) (9-17) \max_{\alpha} \min_{w, b} L(w, b, \alpha) \tag{9-17} αmaxw,bminL(w,b,α)(9-17)

为求该极大极小化问题的解，可以先尝试求 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 对 w , b w, b w,b 的极小，再对 α \alpha α 求极大。以下是该极大极小化问题的具体推导过程。

第一步，先求极小化问题 min ⁡ w , b L ( w , b , α ) \min_{w, b} L(w, b, \alpha) minw,bL(w,b,α)。基于拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 分别对 w w w 和 b b b 求偏导并令其等于零：
∂ L ∂ w = w − ∑ i = 1 N α i y i x i = 0 (9-18) \frac{\partial L}{\partial w} = w - \sum_{i=1}^{N}\alpha_i y_i x_i = 0 \tag{9-18} ∂w∂L=w−i=1∑Nαiyixi=0(9-18)

∂ L ∂ b = ∑ i = 1 N α i y i = 0 (9-19) \frac{\partial L}{\partial b} = \sum_{i=1}^{N}\alpha_i y_i = 0 \tag{9-19} ∂b∂L=i=1∑Nαiyi=0(9-19)

解得：
w = ∑ i = 1 N α i y i x i (9-20) w = \sum_{i=1}^{N}\alpha_i y_i x_i \tag{9-20} w=i=1∑Nαiyixi(9-20)

∑ i = 1 N α i y i = 0 (9-21) \sum_{i=1}^{N}\alpha_i y_i = 0 \tag{9-21} i=1∑Nαiyi=0(9-21)

将式(9-20)代入拉格朗日函数式(9-7)，并结合式(9-21)，有：
min ⁡ w , b L ( w , b , α ) = 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i y i [ ( ∑ j = 1 N α j y j x j ) ⋅ x i + b ] + ∑ i = 1 N α i (9-22) \min_{w, b} L(w, b, \alpha) = \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i y_i \left[\left(\sum_{j=1}^{N}\alpha_j y_j x_j\right)\cdot x_i + b\right] + \sum_{i=1}^{N}\alpha_i \tag{9-22} w,bminL(w,b,α)=21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαiyi[(j=1∑Nαjyjxj)⋅xi+b]+i=1∑Nαi(9-22)

= − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i = -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i =−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi

第二步，对 min ⁡ w , b L ( w , b , α ) \min_{w, b} L(w, b, \alpha) minw,bL(w,b,α) 求 α \alpha α 的极大，可规范为对偶问题，如下：
max ⁡ α − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i (9-23) \max_{\alpha} \quad -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i \tag{9-23} αmax−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi(9-23)

s . t . ∑ i = 1 N α i y i = 0 s.t. \quad \sum_{i=1}^{N}\alpha_i y_i = 0 s.t.i=1∑Nαiyi=0

α i ⩾ 0 , i = 1 , 2 , ... , N \alpha_i \geqslant 0, \; i=1, 2, \ldots, N αi⩾0,i=1,2,...,N

将上述极大化问题转化为极小化问题：
min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i (9-24) \min_{\alpha} \quad \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i \tag{9-24} αmin21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαi(9-24)

s . t . ∑ i = 1 N α i y i = 0 s.t. \quad \sum_{i=1}^{N}\alpha_i y_i = 0 s.t.i=1∑Nαiyi=0

α i ⩾ 0 , i = 1 , 2 , ... , N \alpha_i \geqslant 0, \; i=1, 2, \ldots, N αi⩾0,i=1,2,...,N

对照原始最优化问题（式(9-6)～式(9-7))与转化后的对偶最优化问题（式(9-15)～式(9-17)), 原始问题满足拉格朗日对偶理论相关推论，即式(9-8)中 f ( x ) f(x) f(x) 和 c i ( x ) c_i(x) ci(x) 为凸函数， h j ( x ) h_j(x) hj(x) 为放射函数，且不等式约柬 c i ( x ) c_i(x) ci(x) 对所有 i i i 都有 c i ( x ) < 0 c_i(x) < 0 ci(x)<0, 则存在 x ∗ x^* x∗, α ∗ , β ∗ \alpha^*, \beta^* α∗,β∗ 使得 x ∗ x^* x∗ 是原始问题的解， α ∗ , β ∗ \alpha^*, \beta^* α∗,β∗ 是对偶问题的解，且 d ∗ = p ∗ = L ( x ∗ , α ∗ , β ∗ ) d^* = p^* = L(x^*, \alpha^*, \beta^*) d∗=p∗=L(x∗,α∗,β∗)。所以原始最优化问题（式(9-6)～式(9-7))与转化后的对偶最优化问题（式(9-15)～式(9-17)), 存在 w ∗ , α ∗ , β ∗ w^*, \alpha^*, \beta^* w∗,α∗,β∗ 使得 w ∗ w^* w∗ 为原始问题的解， α ∗ , β ∗ \alpha^*, \beta^* α∗,β∗ 是对偶问题的解。

假设 α ∗ = ( α 1 ∗ , α 2 ∗ , ⋯ , α N ∗ ) ⊤ \alpha^*=(\alpha_1^*, \alpha_2^*, \cdots, \alpha_N^*)^\top α∗=(α1∗,α2∗,⋯,αN∗)⊤是对偶最优化问题式(9-15)～式(9-17)的解，根据拉格朗日对偶理论相关推论，式(9-7)满足 KKT（Karush-Kuhn-Tucker）条件，有：
∂ L ∂ w = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 (9-25) \frac{\partial L}{\partial w}=w^*-\sum_{i=1}^{N}\alpha_i^* y_i x_i = 0 \tag{9-25} ∂w∂L=w∗−i=1∑Nαi∗yixi=0(9-25)

∂ L ∂ b = − ∑ i = 1 N α i ∗ y i = 0 (9-26) \frac{\partial L}{\partial b}=-\sum_{i=1}^{N}\alpha_i^* y_i = 0 \tag{9-26} ∂b∂L=−i=1∑Nαi∗yi=0(9-26)

α i ∗ ( y i ( w ∗ ⋅ x i + b ∗ ) − 1 ) = 0 , i = 1 , 2 , ⋯ , N (9-27) \alpha_i^*\left(y_i\left(w^*\cdot x_i+b^*\right)-1\right)=0, \; i=1, 2, \cdots, N \tag{9-27} αi∗(yi(w∗⋅xi+b∗)−1)=0,i=1,2,⋯,N(9-27)

y i ( w ∗ ⋅ x i + b ∗ ) − 1 ⩾ 0 , i = 1 , 2 , ⋯ , N (9-28) y_i\left(w^*\cdot x_i+b^*\right)-1\geqslant 0, \; i=1, 2, \cdots, N \tag{9-28} yi(w∗⋅xi+b∗)−1⩾0,i=1,2,⋯,N(9-28)

α i ∗ ⩾ 0 , i = 1 , 2 , ⋯ , N (9-29) \alpha_i^*\geqslant 0, \; i=1, 2, \cdots, N \tag{9-29} αi∗⩾0,i=1,2,⋯,N(9-29)

可解得：
w ∗ = ∑ i = 1 N α i ∗ y i x i (9-30) w^*=\sum_{i=1}^{N}\alpha_i^*y_i x_i \tag{9-30} w∗=i=1∑Nαi∗yixi(9-30)

b ∗ = y j − ∑ j = 1 N α i ∗ y i ( x i ⋅ x j ) (9-31) b^*=y_j-\sum_{j=1}^{N}\alpha_i^*y_i\left(x_i\cdot x_j\right) \tag{9-31} b∗=yj−j=1∑Nαi∗yi(xi⋅xj)(9-31)

相应的线性可分支持向量机的线性分隔超平面可以表达为：
∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ = 0 (9-32) \sum_{i=1}^{N}\alpha_i^*y_i\left(x\cdot x_i\right)+b^*=0 \tag{9-32} i=1∑Nαi∗yi(x⋅xi)+b∗=0(9-32)

以上就是线性可分支持向量机的完整推导过程。对于给定的线性可分数集，可以先尝试求对偶问题式(9-27)～式(9-29)的解 α ∗ \alpha^* α∗, 再基于式(9-30)～式(9-31)求对应原始问题的解 w ∗ , b ∗ w^*, b^* w∗,b∗, 最后即可得到线性分隔超平面和相应的分类决策函数。