h θ ( x 1 , x 2 ) = θ 0 + x 1 θ 1 + x 2 θ 2 h_{\theta }(x_{1},x_{2})=\theta {0} + x{1}\theta {1}+x{2}\theta _{2} hθ(x1,x2)=θ0+x1θ1+x2θ2
对 ( x 1 , x 2 ) (x_{1},x_{2}) (x1,x2)进行2阶多项式扩展:
( x 1 , x 2 ) → 多项式扩展 ( x 1 , x 2 , x 1 2 , x 2 2 , x 1 x 2 ) {(x_{1},x_{2})\overset{多项式扩展}{\rightarrow} (x_{1},x_{2},x_{1}^{2},x_{2}^{2},x_{1}x_{2} )} (x1,x2)→多项式扩展(x1,x2,x12,x22,x1x2)
对于5维线性模型
h θ ( x 1 , x 2 ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 + θ 5 x 1 x 2 h_{\theta }(x_{1},x_{2})=\theta {0} +\theta {1}x{1} +\theta {2}x{2} +\theta {3}x{1}^{2}+ \theta {4}x{2}^{2}+\theta {5} x{1}x{2} hθ(x1,x2)=θ0+θ1x1+θ2x2+θ3x12+θ4x22+θ5x1x2
于是我们首先尝试通过多项式扩展的方式解决低维度到高维度映射的问题,为了描述方便,我们来定义一个 ϕ \phi ϕ函数,该函数的作用将数据从低维度映射到高维度中,也就是做多项式扩展;那么对于SVM优化的目标函数,我们就可以得到:
{ min 1 2 ∑ i = 1 , i = 1 m β i β j y ( i ) y ( j ) ϕ ( x ( j ) ) ⋅ ϕ ( x ( i ) ) − ∑ i = 1 m β i s . t : ∑ i = 1 m β i y ( i ) = 0 a \left\{\begin{matrix}\min\frac{1}{2}\sum_{i=1,i=1}^{m} \beta _{i}\beta {j} y^{(i)}y^{(j)}\phi (x^{(j)})\cdot \phi( x^{(i)})-\sum{i=1}^{m} \beta {i} \\s.t:\sum{i=1}^{m} \beta _{i} y^{(i)}=0 \end{matrix}\right.a {min21∑i=1,i=1mβiβjy(i)y(j)ϕ(x(j))⋅ϕ(x(i))−∑i=1mβis.t:∑i=1mβiy(i)=0a
0 ≤ β i ≤ C , i = 1 , 2 , . . . , m 0\le \beta _{i}\le C,i=1,2,...,m 0≤βi≤C,i=1,2,...,m
进一步解释 ϕ ( x ( j ) ) ⋅ ϕ ( x ( i ) ) \phi (x^{(j)})\cdot \phi( x^{(i)}) ϕ(x(j))⋅ϕ(x(i))
首先,明确 x ( j ) , x ( i ) x^{(j)},x^{(i)} x(j),x(i)是向量,这里是向量的点乘
下面我们来举例子:
是不是觉得3维数据的计算量还能接受?
如果原始数据是10维,20维度,30维呢?
如果有一百万条数据呢?
显然,这样的点乘计算量巨大
二. 核函数
SVM的发明者为了解决上述计算量的问题,发明了核函数
核函数定义
假设函数Ф是一个低维特征空间到高维特征空间的映射,那么如果存在函数K(x,z), 对于任意的低维特征向量x和z,都有:
K ( x , z ) = ϕ ( x ) ϕ ( z ) K(x,z) = \phi (x)\phi (z) K(x,z)=ϕ(x)ϕ(z)
则称函数K为核函数(kernal function)
说人话版本:
核函数在低维空间上的计算量等价于特征做维度扩展后的点乘的结果;即核函数的作用相当于扩展后再点乘
复制代码
这里需要补充一点
对于Ф(从低位映射到高维)而言,多项式扩展只是其中的一种方法
即,核函数用低维空间中少量的内积的计算量让模型具有高维空间中的线性可分的优点
首先我们用算式说明:
假设向量 x 1 = ( α 1 , α 2 ) T , x 2 = ( η 1 , η 2 ) T x_{1} =(\alpha _{1}, \alpha {2})^{T},x{2} =( \eta {1}, \eta{2})^{T} x1=(α1,α2)T,x2=(η1,η2)T
2阶扩展映射到五维空间中,我们可以得到:
ϕ ( x 1 ) ⋅ ϕ ( x 2 ) = α 1 η 1 + α 2 η 2 + α 1 2 η 1 2 + α 2 2 η 2 2 + α 1 α 2 η 1 η 2 \phi (x_{1})\cdot \phi (x_{2})=\alpha _{1}\eta _{1}+ \alpha {2}\eta{2}+\alpha _{1}^{2}\eta _{1}^{2}+\alpha _{2}^{2}\eta _{2}^{2}+\alpha _{1}\alpha _{2}\eta _{1}\eta _{2} ϕ(x1)⋅ϕ(x2)=α1η1+α2η2+α12η12+α22η22+α1α2η1η2
而对于K函数的思想,我们可以得到:
( x 1 ⋅ x 2 + 1 ) 2 = 2 α 1 η 1 + 2 α 2 η 2 + α 1 2 η 1 2 + α 2 2 η 2 2 + 2 α 1 α 2 η 1 η 2 + 1 (x_{1}\cdot x_{2}+1)^{2} = 2\alpha _{1}\eta _{1}+ 2\alpha {2}\eta{2}+\alpha _{1}^{2}\eta _{1}^{2}+\alpha _{2}^{2}\eta _{2}^{2}+2\alpha _{1}\alpha _{2}\eta _{1}\eta _{2}+1 (x1⋅x2+1)2=2α1η1+2α2η2+α12η12+α22η22+2α1α2η1η2+1