支持向量机 SVM | 非线性可分:核函数

目录

  • [一. 情景引入](#一. 情景引入)
  • [二. 核函数](#二. 核函数)
    • [1. 核函数的分类](#1. 核函数的分类)
      • [1.1 线性核函数(Linear Kernel)](#1.1 线性核函数(Linear Kernel))
      • [1.2 多项式核函数(Polynomial Kernel)](#1.2 多项式核函数(Polynomial Kernel))
      • [1.3 高斯核函数(Radial Basis Function Kernel)](#1.3 高斯核函数(Radial Basis Function Kernel))
      • [1.4 Sigmoid核函数(Sigmoid Kernel)](#1.4 Sigmoid核函数(Sigmoid Kernel))
    • [2. 核函数小节](#2. 核函数小节)

前面我们讲述了SVM算法的线性可分问题,即对应硬间隔模型和软间隔模型;下面我们来聊SVM算法的非线性可分问题

	注意:对于完全不可分的数据,SVM硬间隔与软间隔都无法解决

一. 情景引入

我们在线性回归:多项式扩展篇中,采用多项式扩展的方法,将低维度的数据扩展成为高维度的数据,从而使线性回归模型可以解决线性不可分的问题

以2维空间中的线性不可分为例子:

对于2维线性模型

h θ ( x 1 , x 2 ) = θ 0 + x 1 θ 1 + x 2 θ 2 h_{\theta }(x_{1},x_{2})=\theta {0} + x{1}\theta {1}+x{2}\theta _{2} hθ(x1,x2)=θ0+x1θ1+x2θ2

对 ( x 1 , x 2 ) (x_{1},x_{2}) (x1,x2)进行2阶多项式扩展:

( x 1 , x 2 ) → 多项式扩展 ( x 1 , x 2 , x 1 2 , x 2 2 , x 1 x 2 ) {(x_{1},x_{2})\overset{多项式扩展}{\rightarrow} (x_{1},x_{2},x_{1}^{2},x_{2}^{2},x_{1}x_{2} )} (x1,x2)→多项式扩展(x1,x2,x12,x22,x1x2)

对于5维线性模型

h θ ( x 1 , x 2 ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 + θ 5 x 1 x 2 h_{\theta }(x_{1},x_{2})=\theta {0} +\theta {1}x{1} +\theta {2}x{2} +\theta {3}x{1}^{2}+ \theta {4}x{2}^{2}+\theta {5} x{1}x{2} hθ(x1,x2)=θ0+θ1x1+θ2x2+θ3x12+θ4x22+θ5x1x2

那么同理,在SVM算法中,我们依然希望通过一种方法,将低维特征数据映射到高维特征数据中,从而解决数据的线性不可分问题

于是我们首先尝试通过多项式扩展的方式解决低维度到高维度映射的问题,为了描述方便,我们来定义一个 ϕ \phi ϕ函数,该函数的作用将数据从低维度映射到高维度中,也就是做多项式扩展;那么对于SVM优化的目标函数,我们就可以得到:
{ min ⁡ 1 2 ∑ i = 1 , i = 1 m β i β j y ( i ) y ( j ) ϕ ( x ( j ) ) ⋅ ϕ ( x ( i ) ) − ∑ i = 1 m β i s . t : ∑ i = 1 m β i y ( i ) = 0 a \left\{\begin{matrix}\min\frac{1}{2}\sum_{i=1,i=1}^{m} \beta _{i}\beta {j} y^{(i)}y^{(j)}\phi (x^{(j)})\cdot \phi( x^{(i)})-\sum{i=1}^{m} \beta {i} \\s.t:\sum{i=1}^{m} \beta _{i} y^{(i)}=0 \end{matrix}\right.a {min21∑i=1,i=1mβiβjy(i)y(j)ϕ(x(j))⋅ϕ(x(i))−∑i=1mβis.t:∑i=1mβiy(i)=0a
0 ≤ β i ≤ C , i = 1 , 2 , . . . , m 0\le \beta _{i}\le C,i=1,2,...,m 0≤βi≤C,i=1,2,...,m

进一步解释 ϕ ( x ( j ) ) ⋅ ϕ ( x ( i ) ) \phi (x^{(j)})\cdot \phi( x^{(i)}) ϕ(x(j))⋅ϕ(x(i))

首先,明确 x ( j ) , x ( i ) x^{(j)},x^{(i)} x(j),x(i)是向量,这里是向量的点乘

下面我们来举例子:

是不是觉得3维数据的计算量还能接受?

如果原始数据是10维,20维度,30维呢?

如果有一百万条数据呢?

显然,这样的点乘计算量巨大

二. 核函数

SVM的发明者为了解决上述计算量的问题,发明了核函数

  • 核函数定义

    假设函数Ф是一个低维特征空间到高维特征空间的映射,那么如果存在函数K(x,z), 对于任意的低维特征向量x和z,都有:
    K ( x , z ) = ϕ ( x ) ϕ ( z ) K(x,z) = \phi (x)\phi (z) K(x,z)=ϕ(x)ϕ(z)

    则称函数K为核函数(kernal function)

  • 说人话版本:

    核函数在低维空间上的计算量等价于特征做维度扩展后的点乘的结果;即核函数的作用相当于扩展后再点乘

     	这里需要补充一点
     	对于Ф(从低位映射到高维)而言,多项式扩展只是其中的一种方法
    

即,核函数用低维空间中少量的内积的计算量让模型具有高维空间中的线性可分的优点


首先我们用算式说明:

假设向量 x 1 = ( α 1 , α 2 ) T , x 2 = ( η 1 , η 2 ) T x_{1} =(\alpha _{1}, \alpha {2})^{T},x{2} =( \eta {1}, \eta{2})^{T} x1=(α1,α2)T,x2=(η1,η2)T

2阶扩展映射到五维空间中,我们可以得到:
ϕ ( x 1 ) ⋅ ϕ ( x 2 ) = α 1 η 1 + α 2 η 2 + α 1 2 η 1 2 + α 2 2 η 2 2 + α 1 α 2 η 1 η 2 \phi (x_{1})\cdot \phi (x_{2})=\alpha _{1}\eta _{1}+ \alpha {2}\eta{2}+\alpha _{1}^{2}\eta _{1}^{2}+\alpha _{2}^{2}\eta _{2}^{2}+\alpha _{1}\alpha _{2}\eta _{1}\eta _{2} ϕ(x1)⋅ϕ(x2)=α1η1+α2η2+α12η12+α22η22+α1α2η1η2

而对于K函数的思想,我们可以得到:
( x 1 ⋅ x 2 + 1 ) 2 = 2 α 1 η 1 + 2 α 2 η 2 + α 1 2 η 1 2 + α 2 2 η 2 2 + 2 α 1 α 2 η 1 η 2 + 1 (x_{1}\cdot x_{2}+1)^{2} = 2\alpha _{1}\eta _{1}+ 2\alpha {2}\eta{2}+\alpha _{1}^{2}\eta _{1}^{2}+\alpha _{2}^{2}\eta _{2}^{2}+2\alpha _{1}\alpha _{2}\eta _{1}\eta _{2}+1 (x1⋅x2+1)2=2α1η1+2α2η2+α12η12+α22η22+2α1α2η1η2+1

	可以直观的发现,式子的主要区别在系数上
	也就是说:
		只需要乘上一个系数,就可以将五维空间的内积转换成两维空间的内积

下面,我们再用实际数据来具体说明核函数的作用:

假设向量 x 1 = ( 3 , 5 ) x_{1} =(3, 5) x1=(3,5),二阶扩展后得到:3,5,9,25,15

x 2 = ( 4 , 2 ) x_{2} =( 4,2) x2=(4,2),二阶扩展后得到:4,2,16,4,8

进行二阶扩展时,我们会得到:
ϕ ( x 1 ) ⋅ ϕ ( x 2 ) = 3 ∗ 4 + 5 ∗ 2 + 9 ∗ 16 + 25 ∗ 4 + 15 ∗ 8 = 386 \phi (x_{1})\cdot \phi (x_{2})=3*4+5*2+9*16+25*4+15*8=386 ϕ(x1)⋅ϕ(x2)=3∗4+5∗2+9∗16+25∗4+15∗8=386
( x 1 ⋅ x 2 + 1 ) 2 = ( 3 ∗ 4 + 5 ∗ 2 + 1 ) 2 = 529 (x_{1}\cdot x_{2}+1)^{2} =(3*4+5*2+1)^{2}=529 (x1⋅x2+1)2=(3∗4+5∗2+1)2=529
[ 0.8476 ( x 1 ⋅ x 2 ) + 1 ] 2 = [ 0.8476 ( 3 ∗ 4 + 5 ∗ 2 ) + 1 ] 2 = 386.01 [0.8476(x_{1}\cdot x_{2})+1]^{2} =[0.8476(3*4+5*2)+1]^{2}=386.01 [0.8476(x1⋅x2)+1]2=[0.8476(3∗4+5∗2)+1]2=386.01

1. 核函数的分类

这里我们明确下SVM使用时,需要包含核函数和松弛因子

1.1 线性核函数(Linear Kernel)

	该核函数针对线性可分数据
		即:不需要做扩展,只点乘,其他什么都没做

K ( x , z ) = x ∙ z K(x,z)=x\bullet z K(x,z)=x∙z

1.2 多项式核函数(Polynomial Kernel)

	γ、r、degree扩展阶数 属于超参,需要调参

K ( x , z ) = ( γ x ∙ z + r ) d K(x,z)=(\gamma x\bullet z+r)^{d} K(x,z)=(γx∙z+r)d

1.3 高斯核函数(Radial Basis Function Kernel)

	径向基函数核
	γ属于超参,要求大于0,需要调参
		常用核函数

K ( x , z ) = e − γ ∥ x − z ∥ 2 K(x,z)=e^{-\gamma\left \| x-z \right \|^{2} } K(x,z)=e−γ∥x−z∥2

1.4 Sigmoid核函数(Sigmoid Kernel)

	γ、r属于超参,需要调参

K ( x , z ) = tanh ⁡ ( γ x ∙ z + r ) K(x,z)=\tanh (\gamma x\bullet z+r) K(x,z)=tanh(γx∙z+r)

2. 核函数小节

虽然核函数计算输出的结果与二阶扩展的结果一致,但核函数的价值在于,通过在低维上进行计算,从而达到高维上的分类效果,避免了直接在高维空间中的复杂计算

	核函数的作用:将非线性可分的数据转换为线性可分数据
	
	核函数可以自定义
		核函数必须是正定核函数,任何半正定的函数都可以作为核函数
			Gram矩阵是半正定矩阵:			
相关推荐
热爱跑步的恒川1 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃3 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力5 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20215 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧36 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽6 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_6 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习
SongYuLong的博客6 小时前
Air780E基于LuatOS编程开发
人工智能
Jina AI6 小时前
RAG 系统的分块难题:小型语言模型如何找到最佳断点?
人工智能·语言模型·自然语言处理
-派神-6 小时前
大语言模型(LLM)量化基础知识(一)
人工智能·语言模型·自然语言处理