0.补充知识
0.1 超平面
定义: 超平面是指在𝑛维空间中,维度为 𝑛−1的子空间。它是分割空间的一个平面。
性质:
n维空间的超平面 ( w T x b = 0 , 其中 w , x ∈ R n ) (w^Tx_b=0,其中w,x\in \mathbb R^n) (wTxb=0,其中w,x∈Rn):
- 超平面方程不唯一
简单理解方程不唯一,假设有如下的超平面方程:
a 1 x 1 + a 2 x 2 + . . . a n x n + b = 0 a_1x_1+a_2x_2+...a_nx_n+b=0 a1x1+a2x2+...anxn+b=0
将这个方程乘以一个非零常数k,得到:
k ( a 1 x 1 + a 2 x 2 + . . . a n x n + b ) = 0 k(a_1x_1+a_2x_2+...a_nx_n+b)=0 k(a1x1+a2x2+...anxn+b)=0
即
k a 1 x 1 + k a 2 x 2 + . . . k a n x n + k b ) = 0 ka_1x_1+ka_2x_2+...ka_nx_n+kb)=0 ka1x1+ka2x2+...kanxn+kb)=0
此时,这两组不同的w和b就描述了同一个超平面。 - 法向量w和位移项b确定唯一一个超平面
- 法向量w垂直于超平面(缩放w,b时,若缩放倍数为负数会改变法向量方向)
- 法向量w指向的那一半空间为正空间,另一半为负空间
- 任意点x到超平面的距离公式为
r = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ r=\frac{|w^Tx+b|}{||w||} r=∣∣w∣∣∣wTx+b∣
上述公式的推理:
对于任意一点 x 0 = ( x 1 0 , x 2 0 , . . . , x n 0 ) T x_0=(x^0_1,x^0_2,...,x_n^0)^T x0=(x10,x20,...,xn0)T,设其在超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0上的投影点为 x 1 = ( x 1 1 , x 2 1 , . . . , x n 1 ) T x_1=(x^1_1,x^1_2,...,x^1_n)^T x1=(x11,x21,...,xn1)T,则 w T x 1 + b = 0 w^Tx_1+b=0 wTx1+b=0,且向量 x 1 x 0 → \overrightarrow {x_1x_0} x1x0 与法向量w平行,
1)第一步先考虑从哪里可以得到一个距离,可以想到从向量点乘中可以得到,向量 x 1 x 0 → \overrightarrow {x_1x_0} x1x0 的模长也就是距离,如下:
∣ w ⋅ x 1 x 0 → ∣ = ∣ ∣ ∣ w ∣ ∣ ⋅ c o s π ⋅ ∣ ∣ x 1 x 0 → ∣ ∣ ∣ = ∣ ∣ w ∣ ∣ ⋅ ∣ ∣ x 1 x 0 → ∣ ∣ = ∣ ∣ w ∣ ∣ ⋅ r |w \cdot \overrightarrow {x_1x_0}|=|||w||\cdot cos\pi \cdot ||\overrightarrow {x_1x_0}|||=||w||\cdot||\overrightarrow {x_1x_0}||=||w||\cdot r ∣w⋅x1x0 ∣=∣∣∣w∣∣⋅cosπ⋅∣∣x1x0 ∣∣∣=∣∣w∣∣⋅∣∣x1x0 ∣∣=∣∣w∣∣⋅r
其中绝对值是为了统一表示在正空间和负空间中取的点,r就表示距离了。
2)上面的式子可以得到r,但是前面的向量的内积的绝对值还是未知的,因此考虑化简向量内积,
w ⋅ x 1 x 0 → w\cdot \overrightarrow {x_1x_0} w⋅x1x0
= w 1 ( x 1 0 − x 1 1 ) + w 2 ( x 2 0 − x 2 1 ) + . . . + w n ( x n 0 − x n 1 ) =w_1(x^0_1-x^1_1)+w_2(x_2^0-x_2^1)+...+w_n(x^0_n-x_n^1) =w1(x10−x11)+w2(x20−x21)+...+wn(xn0−xn1)
= w 1 x 1 0 + w 2 x 2 0 + . . . + w n x n 0 − ( w 1 x 1 1 + w 2 x 2 1 + . . . + w n x n 1 ) =w_1x_1^0+w_2x_2^0+...+w_nx_n^0-(w_1x_1^1+w_2x_2^1+...+w_nx_n^1) =w1x10+w2x20+...+wnxn0−(w1x11+w2x21+...+wnxn1)
= w T x 0 − w T x 1 =w^Tx_0-w^Tx_1 =wTx0−wTx1
= w T x 0 + b =w^Tx_0+b =wTx0+b
即得到了,
∣ w T x 0 + b ∣ = ∣ ∣ w ∣ ∣ ⋅ r |w^Tx_0+b|=||w||\cdot r ∣wTx0+b∣=∣∣w∣∣⋅r
r = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ r=\frac{|w^Tx+b|}{||w||} r=∣∣w∣∣∣wTx+b∣
0.2 几何间隔
(1)对于样本点
对于给定的数据集X和超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0,定义数据集X中的任意一个样本点 ( x i , y i ) , y i ∈ { − 1 , 1 } , i = 1 , 2 , . . . , m (x_i,y_i),y_i\in \{-1,1\},i=1,2,...,m (xi,yi),yi∈{−1,1},i=1,2,...,m关于超平面的几何间隔为
γ i = y i ( w T x i + b ) ∣ ∣ w ∣ ∣ \gamma_i=\frac{y_i(w^Tx_i+b)}{||w||} γi=∣∣w∣∣yi(wTxi+b)
正确分类时: γ i > 0 \gamma_i>0 γi>0,几何间隔此时等价于点到超平面的距离
没有正确分类时: γ i < 0 \gamma_i<0 γi<0
(2)对于数据集
对于给定的数据集X和超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0,定义数据集X关于超平面的几何间隔为 :数据集X中所有样本点的几何间隔最小值
γ = min i = 1 , 2 , . . . , m γ i \gamma=\min_{i=1,2,...,m}\gamma_i γ=i=1,2,...,mminγi
1.算法原理
支持向量机找的是距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。
2.支持向量机
2.1 模型
给定线性可分数据集X,支持向量机模型希望求得数据集X关于超平面的几何间隔 γ \gamma γ达到最大 的那个超平面,然后再用一个sign函数包装实现分类功能
y = s i g n ( w T x + b ) = { 1 , w T x + b > 0 − 1 , w T x + b < 0 y=sign(w^Tx+b) =\begin{cases} 1& ,{w^Tx+b> 0}\\ -1& ,{w^Tx+b<0} \end{cases} y=sign(wTx+b)={1−1,wTx+b>0,wTx+b<0
这里的要求几何间隔达到最大直观上理解其实就是超平面正确划分了正负样本且距离正负样本都比较远,没有特别偏向哪一边,体现了支持向量机的强泛化性。
2.2策略
给定线性可分数据集X,设X中几何间隔最小的样本为 ( x m i n , y m i n ) (x_min,y_min) (xmin,ymin),那么支持向量机找超平面的过程可以转化为以下带约束条件的优化问题
m a x γ max \gamma maxγ
s . t . γ i > = γ , i = 1 , 2 , . . . , m s.t. \gamma_i>=\gamma,i=1,2,...,m s.t.γi>=γ,i=1,2,...,m
将几何间隔的公式带入得到,
max w , b y m i n ( w T x m i n + b ) ∣ ∣ w ∣ ∣ \max_{w,b} \frac{y_{min}(w^Tx_{min}+b)}{||w||} w,bmax∣∣w∣∣ymin(wTxmin+b)
s . t . y i ( w T x i + b ) ∣ ∣ w ∣ ∣ > = y m i n ( w T x m i n + b ) ∣ ∣ w ∣ ∣ , i = 1 , 2 , . . . , m s.t. \frac{y_{i}(w^Tx_{i}+b)}{||w||}>=\frac{y_{min}(w^Tx_{min}+b)}{||w||},i=1,2,...,m s.t.∣∣w∣∣yi(wTxi+b)>=∣∣w∣∣ymin(wTxmin+b),i=1,2,...,m
进一步化简得
max w , b y m i n ( w T x m i n + b ) ∣ ∣ w ∣ ∣ \max_{w,b} \frac{y_{min}(w^Tx_{min}+b)}{||w||} w,bmax∣∣w∣∣ymin(wTxmin+b)
s . t . y i ( w T x i + b ) > = y m i n ( w T x m i n + b ) , i = 1 , 2 , . . . , m s.t. y_{i}(w^Tx_{i}+b)>=y_{min}(w^Tx_{min}+b),i=1,2,...,m s.t.yi(wTxi+b)>=ymin(wTxmin+b),i=1,2,...,m
为了使得上式有唯一解,添加进一步的限制,因为在一定的w和b的条件下可以使得上面式子得分子为1,因此,就假设上式中得分子为1,得到:
max w , b = 1 ∣ ∣ w ∣ ∣ \max_{w,b}=\frac{1}{||w||} w,bmax=∣∣w∣∣1
s . t . y i ( w T x i + b ) > = 1 , i = 1 , 2 , . . . , m s.t. y_i(w^Tx_i+b)>=1,i=1,2,...,m s.t.yi(wTxi+b)>=1,i=1,2,...,m
进一步变为最小化问题,得到
max w , b 1 2 ∣ ∣ w ∣ ∣ 2 \max_{w,b} \frac12||w||^2 w,bmax21∣∣w∣∣2
s . t . 1 − y i ( w T x i + b ) < = 0 , i = 1 , 2 , . . . , m s.t. 1-y_i(w^Tx_i+b)<=0,i=1,2,...,m s.t.1−yi(wTxi+b)<=0,i=1,2,...,m
该优化问题为含不等式约束的优化问题,且为凸优化问题 。在这里通常用拉格朗日对偶来求解。
补充------拉格朗日对偶:
对于一般地约束优化问题(不一定是凸优化问题):
m i n f ( x ) min f(x) minf(x)
s . t . g i ( x ) < = 0 , i = 1 , 2 , . . . , m s.t. g_i(x)<=0 ,i=1,2,...,m s.t.gi(x)<=0,i=1,2,...,m
h i ( x ) = 0 , j = 1 , 2 , . . . , n h_i(x)=0,j=1,2,...,n hi(x)=0,j=1,2,...,n
设上述优化问题的定义域为
,可行集为
,显然
最优值为 p ∗ = m i n { f ( x ~ ) } p*=min\{f( \widetilde x)\} p∗=min{f(x )}。由拉格朗日函数的定义可知上述优化问题的拉格朗日函数为
接下来定义上述优化问题的拉格朗日对偶函数 Γ ( μ , λ ) 为 L ( x , μ , λ ) \Gamma(\mu,\lambda)为L(x,\mu,\lambda) Γ(μ,λ)为L(x,μ,λ)关于x的下确界,也即
Γ ( μ , λ ) = inf x ∈ D L ( x , μ , λ ) = inf x ∈ D ( f ( x ) + ∑ i = 1 m μ i g i ( x ) + ∑ j = 1 n λ j h j ( x ) ) \Gamma(\mu,\lambda)=\inf_{x \in D}L(x,\mu,\lambda)=\inf_{x\in D}(f(x)+\sum^m_{i=1}\mu_ig_i(x)+\sum^n_{j=1}\lambda_jh_j(x)) Γ(μ,λ)=x∈DinfL(x,μ,λ)=x∈Dinf(f(x)+i=1∑mμigi(x)+j=1∑nλjhj(x))
对偶函数的性质:
- 无论优化问题是否为凸优化问题,其对偶函数恒为凹函数
- 当 μ \mu μ大于等于0时, Γ ( μ , λ ) \Gamma(\mu,\lambda) Γ(μ,λ)构成了上述优化问题最优值 p ∗ p^* p∗的下界,也即
Γ ( μ , λ ) < = p ∗ \Gamma(\mu,\lambda)<=p* Γ(μ,λ)<=p∗
进一步定义在满足 μ \mu μ大于等于0这个约束条件下求对偶函数最大值的优化问题为拉格朗日对偶问题(原优化问题为主问题)
max Γ ( μ , λ ) \max \Gamma(\mu,\lambda) maxΓ(μ,λ)
s . t . μ > = 0 s.t. \mu>=0 s.t.μ>=0
设该优化问题的最优值为 d ∗ d^* d∗,显然 d ∗ < = p ∗ d^*<=p^* d∗<=p∗,此时称为弱对偶性成立,若 d ∗ = p ∗ d^*=p^* d∗=p∗,则称为强对偶性成立。
支持向量机满足Slater条件(若主问题是凸优化问题,且可行集中存在一点能使得所有不等式约束的不等号成立,则强对偶成立),而该条件使得强对偶成立,就找到了一种间接求 p ∗ p^* p∗的方法。