机器学习 第6章 支持向量机

这里写目录标题

  • [6.1 间隔与支持向量](#6.1 间隔与支持向量)
  • [6.2 对偶问题](#6.2 对偶问题)
  • [6.3 核函数](#6.3 核函数)
  • [6.4 软间隔与正则化](#6.4 软间隔与正则化)
  • [6.5 支持向量回归](#6.5 支持向量回归)

6.1 间隔与支持向量

给定训练样本集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } , y i ∈ { − 1 , + 1 } D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}) ,...,(x_{m},y_{m})\right \} ,y_{i}\in \left \{ -1,+1 \right \} D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1},我们希望在训练集D的基础上,基于样本空间找到一个划分超平面,将不同类别的样本分开。如下图所示

在该样本空间中,中间的"实线段"都可作为划分超平面,但它们的效果不尽相同。其中位于中间的效果最好,因为该划分超平面对训练样本局部扰动的"容忍"性最好。在样本空间中,划分超平面可通过如下线性方程来描述: w T x + b = 0 w^{T} x+b=0 wTx+b=0

其中 w = ( w 1 , w 2 , . . . , w d ) w=\left ( w_{1} ,w_{2} ,...,w_{d} \right ) w=(w1,w2,...,wd)为法向量,决定了超平面的方向; b b b为位移项,决定了超平面与原点之间的距离。样本空间中任意点 x x x到超平面 ( w , b ) (w,b) (w,b)的距离可写为
r = ∣ w T x + b ∣ ∥ w ∥ . r = \frac{\left| {\mathbf{w}}^{\mathrm{T}}\mathbf{x} + b\right| }{\parallel \mathbf{w}\parallel }. r=∥w∥ wTx+b .

假设超平面 ( w , b ) (w,b) (w,b)能将训练样本正确分类,即满足下式
{ w T x i + b ≥ + 1 , y i = + 1 w T x i + b ≤ − 1 , y i = − 1 \left\{ \begin{array}{ll} {\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}{i} + b \geq + 1, & {y}{i} = + 1 \\ {\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}{i} + b \leq - 1, & {y}{i} = - 1 \end{array}\right. {wTxi+b≥+1,wTxi+b≤−1,yi=+1yi=−1

如下图所示,图中画圈的样本点称为支持向量 ,它们到超平面的距离最小。其中,两个异类支持向量到超平面的距离之和为 γ = 2 ∥ w ∥ \gamma = \frac{2}{\parallel \mathbf{w}\parallel } γ=∥w∥2,即图中两段虚线之间的间隔距离。

6.2 对偶问题

可以使用拉格朗日乘子法得到对偶问题,上面问题的拉格朗日函数可写为
L ( w , b , α ) = 1 2 ∥ w ∥ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) L\left( {\mathbf{w},b,\mathbf{\alpha }}\right) = \frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + \mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }{i}\left( {1 - {y}{i}\left( {{\mathbf{w}}^{\mathrm{T}}{\mathbf{x}}_{i} + b}\right) }\right) L(w,b,α)=21∥w∥2+i=1∑mαi(1−yi(wTxi+b))

令 L ( w , b , α ) L(w,b,\alpha) L(w,b,α)对w和b的偏导为零可得
w = ∑ i = 1 m α i y i x i \mathbf{w} = \mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }{i}{y}{i}{\mathbf{x}}{i} w=i=1∑mαiyixi
0 = ∑ i = 1 m α i y i 0 = \mathop{\sum }\limits
{{i = 1}}^{m}{\alpha }{i}{y}{i} 0=i=1∑mαiyi

将结果代入得其对偶问题
max ⁡ α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j \mathop{\max }\limits_{\mathbf{\alpha }}\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }{i} - \frac{1}{2}\mathop{\sum }\limits{{i = 1}}^{m}\mathop{\sum }\limits_{{j = 1}}^{m}{\alpha }{i}{\alpha }{j}{y}{i}{y}{j}{\mathbf{x}}{i}^{\mathrm{T}}{\mathbf{x}}{j} αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj

上面过程需满足KKT条件,即
{ α i ≥ 0 ; y i f ( x i ) − 1 ≥ 0 ; α i ( y i f ( x i ) − 1 ) = \left\{ \begin{array}{l} {\alpha }{i} \geq 0; \\ {y}{i}f\left( {\mathbf{x}}{i}\right) - 1 \geq 0; \\ {\alpha }{i}\left( {{y}{i}f\left( {\mathbf{x}}{i}\right) - 1}\right) = \end{array}\right. ⎩ ⎨ ⎧αi≥0;yif(xi)−1≥0;αi(yif(xi)−1)=

在参数初始化后, SMO 不断执行如下两个步骤直至收敛:

(1)选取一对需更新的变量 α i \alpha _{i} αi和 α j \alpha _{j} αj;

(2)固定 α i \alpha _{i} αi和 α j \alpha _{j} αj以外的参数,求解公式获得更新后的 α i \alpha _{i} αi和 α j \alpha _{j} αj

6.3 核函数

在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面,如下图中的" 异或 问题就不是线性可分的

对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性分。令 ϕ ( x ) \phi (x) ϕ(x)表示将 x x x映射后的特征向量 ,于是, 在特征空间中划分超平面所对应的模型可表示为
f ( x ) = w T ϕ ( x ) + b f(x)=w^{T} \phi (x)+b f(x)=wTϕ(x)+b,由于特征空间维数可能很高,甚至可能是无穷维,因此直接计算 ϕ ( x i ) T ϕ ( x j ) \phi {\left( {\mathbf{x}}{i}\right) }^{\mathrm{T}}\phi \left( {\mathbf{x}}{j}\right) ϕ(xi)Tϕ(xj)很难,可设想该函数
κ ( x i , x j ) = ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ = ϕ ( x i ) T ϕ ( x j ) \kappa \left( {{\mathbf{x}}{i},{\mathbf{x}}{j}}\right) = \left\langle {\phi \left( {\mathbf{x}}{i}\right) ,\phi \left( {\mathbf{x}}{j}\right) }\right\rangle = \phi {\left( {\mathbf{x}}{i}\right) }^{\mathrm{T}}\phi \left( {\mathbf{x}}{j}\right) κ(xi,xj)=⟨ϕ(xi),ϕ(xj)⟩=ϕ(xi)Tϕ(xj)

经过该函数的变化,上式可改写为
max ⁡ α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j κ ( x i , x j ) \mathop{\max }\limits_{\mathbf{\alpha }}\mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }{i} - \frac{1}{2}\mathop{\sum }\limits{{i = 1}}^{m}\mathop{\sum }\limits_{{j = 1}}^{m}{\alpha }{i}{\alpha }{j}{y}{i}{y}{j}\kappa \left( {{\mathbf{x}}{i},{\mathbf{x}}{j}}\right) αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjκ(xi,xj)

求解后得到
f ( x ) = w T ϕ ( x ) + b f\left( \mathbf{x}\right) = {\mathbf{w}}^{\mathrm{T}}\phi \left( \mathbf{x}\right) + b f(x)=wTϕ(x)+b
= ∑ i = 1 m α i y i ϕ ( x i ) T ϕ ( x ) + b = \mathop{\sum }\limits_{{i = 1}}^{m}{\alpha }{i}{y}{i}\phi {\left( {\mathbf{x}}{i}\right) }^{\mathrm{T}}\phi \left( \mathbf{x}\right) + b =i=1∑mαiyiϕ(xi)Tϕ(x)+b
= ∑ i = 1 m α i y i κ ( x , x i ) + b = \mathop{\sum }\limits
{{i = 1}}^{m}{\alpha }{i}{y}{i}\kappa \left( {\mathbf{x},{\mathbf{x}}_{i}}\right) + b =i=1∑mαiyiκ(x,xi)+b

上面的 κ ( . , . ) \kappa (.,.) κ(.,.)就是"核函数",该函数有如下定理

令 χ \chi χ为输入空间, κ ( . , . ) \kappa (.,.) κ(.,.)是该空间上的对称函数,则 κ \kappa κ是核函数当且仅当对于任意数据,"核矩阵"K总是半正定的

上式表明:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用.事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射φ.换言之,任何一个核函数都隐式地定义了一个称为"再生核希尔伯特空间"的特征空间。

常用核函数如下:

6.4 软间隔与正则化

硬间隔:在样本空间中,对某一个超平面,其中所有的样本都必须划分正确。

软间隔:与上述类似,只不过允许部分样本不满足约束。

下图给出了三种常用的替代损失函数:

hinge损失: ℓ hinge ( z ) = max ⁡ ( 0 , 1 − z ) {\ell }_{\text{hinge }}\left( z\right) = \max \left( {0,1 - z}\right) ℓhinge (z)=max(0,1−z)

指数损失: ℓ exp ( z ) = exp ⁡ ( − z ) {\ell }_{\text{exp }}\left( z\right) = \exp \left( {-z}\right) ℓexp (z)=exp(−z)

对率损失: ℓ log ( z ) = log ⁡ ( 1 + exp ⁡ ( − z ) ) {\ell }_{\text{log }}\left( z\right) = \log \left( {1 + \exp \left( {-z}\right) }\right) ℓlog (z)=log(1+exp(−z))

两者唯一的差别就在于对偶变量的约束不同:软间隔是 0 ≤ α i ≤ C 0\le \alpha _{i} \le C 0≤αi≤C, 硬间隔是 0 ≤ α i 0\le \alpha _{i} 0≤αi

6.5 支持向量回归

给定训练样本D,希望学得一个形如 f ( x ) = w T x + b f(x)=w^{T}x+b f(x)=wTx+b的回归模型,使得 f ( x ) f(x) f(x)与y尽可能接近,支持向量回归(SVR)假设我们能容忍 f ( x ) f(x) f(x)与y之间最多有 ϵ \epsilon ϵ的偏差,如图所示

在虚线部分的样本点则认为是被预测正确的。于是,SRC问题可形式化为
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ℓ ϵ ( f ( x i ) − y i ) , \mathop{\min }\limits_{{\mathbf{w},b}}\frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + C\mathop{\sum }\limits_{{i = 1}}^{m}{\ell }{\epsilon }\left( {f\left( {\mathbf{x}}{i}\right) - {y}_{i}}\right) , w,bmin21∥w∥2+Ci=1∑mℓϵ(f(xi)−yi),

其中,
ℓ ϵ ( z ) = { 0 , if ∣ z ∣ ≤ ϵ ∣ z ∣ − ϵ , otherwise. {\ell }_{\epsilon }\left( z\right) = \left\{ \begin{array}{ll} 0, & \text{ if }\left| z\right| \leq \epsilon \\ \left| z\right| - \epsilon , & \text{ otherwise. } \end{array}\right. ℓϵ(z)={0,∣z∣−ϵ, if ∣z∣≤ϵ otherwise.

引入松弛变量 ξ i \xi {i} ξi和 ξ ^ i \hat{\xi} {i} ξ^i,第一个公式改写为
min ⁡ w , b , ξ i , ξ ^ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ( ξ i + ξ ^ i ) \mathop{\min }\limits
{{\mathbf{w},b,{\xi }
{i},{\widehat{\xi }}{i}}}\frac{1}{2}\parallel \mathbf{w}{\parallel }^{2} + C\mathop{\sum }\limits{{i = 1}}^{m}\left( {{\xi }{i} + {\widehat{\xi }}{i}}\right) w,b,ξi,ξ imin21∥w∥2+Ci=1∑m(ξi+ξ i)

最终,SVR可表示为
f ( x ) = ∑ i = 1 m ( α ^ i − α i ) κ ( x , x i ) + b f\left( \mathbf{x}\right) = \mathop{\sum }\limits_{{i = 1}}^{m}\left( {{\widehat{\alpha }}{i} - {\alpha }{i}}\right) \kappa \left( {\mathbf{x},{\mathbf{x}}_{i}}\right) + b f(x)=i=1∑m(α i−αi)κ(x,xi)+b

其中 κ ( x i , x j ) = ϕ ( x i ) T ϕ ( x j ) \kappa ({\mathbf{x}}{i},{\mathbf{x}}{j}) = \phi ({\mathbf{x}}{i}{)}^{T}\phi ({\mathbf{x}}{j}) κ(xi,xj)=ϕ(xi)Tϕ(xj)为核函数。

相关推荐
古希腊掌管学习的神6 分钟前
[搜广推]王树森推荐系统笔记——曝光过滤 & Bloom Filter
算法·推荐算法
qystca7 分钟前
洛谷 P1706 全排列问题 C语言
算法
浊酒南街13 分钟前
决策树(理论知识1)
算法·决策树·机器学习
就爱学编程20 分钟前
重生之我在异世界学编程之C语言小项目:通讯录
c语言·开发语言·数据结构·算法
B站计算机毕业设计超人21 分钟前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
学术头条25 分钟前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客29 分钟前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn
feifeikon32 分钟前
机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)
人工智能·机器学习·线性回归
古希腊掌管学习的神36 分钟前
[机器学习]sklearn入门指南(2)
人工智能·机器学习·sklearn
Schwertlilien1 小时前
图像处理-Ch4-频率域处理
算法