【机器学习入门】一文读懂线性可分支持向量机(一)

一 引言

在机器学习领域,支持向量机(SVM)是一种监督学习模型,用于分类和回归分析。SVM 最初由 Vladimir Vapnik 于 1963 年提出,并在随后的几十年里得到了极大的发展和完善。由于其强大的泛化能力、灵活性以及对高维数据的有效处理,SVM 已经成为许多实际问题中的首选方法之一。

支持向量机(SVM,Support Vecor Machine)是一种二分类算法,在集成学习和深度学习火起来之前支持向量机的使用非常广泛,其分类效果好、适用性广(线性、非线性都可用),功能真的是很棒棒,下来我们就来梳理一下支持向量机的原理。

二 支持向量机原理

2.1 背景

从上一篇文章 【技术干货】一文搞懂感知机算法:从理论到Python实战 中我们可以知道,感知机的目标是找到一个将线性可分的数据一分为二的决策超平面:

如上图所示,决策超平面的一侧为正样本,另一侧为负样本,但是我们可以发现,满足这个特性的决策超平面并不是唯一的,在有限的线性可分样本中,正负样本点之间的间隔使得不同的决策超平面存在,那么如果样本点继续增加,这些决策超平面中那个分类效果最好呢?也就是说谁的泛华效果最好呢?------这就是支持向量机要解决的主要问题,也是支持向量机与感知机的主要区别。

2.2 支持向量

就上面的图来说,主观上看哪个超平面的分类泛化能力最强呢?我们认为红色的那条可能会比较好,这条线距离最近的红点区域和最近的蓝点区域都比较远,无论是红点还是蓝点,再向靠近超平面的方向增加一些点都没问题,还可以被这条超平面分的比较开,那两条虚线就没有这么好的效果,如下图所示,我们新增几个点,可以看出其分类效果的差别:

似乎可以得出这样的结论:超平面离直线两边的数据的间隔越大,对训练集的数据的局限性或噪声有最大的容忍能力,也就是所谓的鲁棒性

所以,如果所有的样本点不只是可以被决策超平面分开,还和超平面保持一定的距离间隔,那么这样的分类超平面是更优的,支持向量机就是要找到使这个间隔最大的决策超平面 (即最大化下图中的margin)。训练样本中和这个超平面距离最近的样本点被称为支持向量,如下图虚线所经过的样本点即为支持向量:

2.3 函数间隔与几何间隔

最大化间隔的思想我们大概了解了,不过要最大化这个间隔首先得量化,怎么量化呢?

对于二分类学习,假设现在的数据是线性可分的,这时分类学习最基本的想法就是找到一个合适的超平面,该超平面能够将不同类别的样本分开,类似二维平面使用ax+by+c=0来表示,超平面实际上表示的就是高维的平面,如下图所示:

对数据点进行划分时,易知:当超平面距离与它最近的数据点的间隔越大,分类的鲁棒性越好,即当新的数据点加入时,超平面对这些点的适应性最强,出错的可能性最小。因此需要让所选择的超平面能够最大化这个间隔Gap(如下图所示), 常用的间隔定义有两种,一种称之为函数间隔,一种为几何间隔,下面将分别介绍这两种间隔,并对SVM为什么会选用几何间隔做了一些阐述。

2.3.1 函数间隔

在决策超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0确定的情况下, ∣ w T x + b ∣ |w^Tx+b| ∣wTx+b∣能够表示点 x x x到超平面的距离远近; w T x + b w^Tx+b wTx+b和 y y y是否同号能够表示分类是否正确,所以可用 y ( w T x + b ) y(w^Tx+b) y(wTx+b)来表示分类的正确性及确定性,我们在感知机中就有类似的用法,这就是函数间隔的概念,定义函数间隔 γ ′ \gamma^{'} γ′为:
γ ′ = y ( w T x + b ) \gamma^{'} = y(w^Tx + b) γ′=y(wTx+b)

2.3.2 几何间隔

函数间隔虽然可以表示分类的正确性和确定性,但其缺点是只能在一个确定的超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0下比较样本点到超平面的相对距离,不同参数的超平面条件下计算的距离是不能比较大小的,比如超平面 2 w T x + 2 b = 0 2w^Tx+2b=0 2wTx+2b=0与 w T x + b = 0 w^Tx+b=0 wTx+b=0是同一个超平面,样本点与其真实距离没有变化,但是函数距离却翻了一倍,因此我们需要将参数加以约束,使其具备可比性,我们定义几何间隔:
γ = y ( w T x + b ) ∣ ∣ w ∣ ∣ 2 = γ ′ ∣ ∣ w ∣ ∣ 2 \gamma = \frac{y(w^Tx + b)}{||w||_2} = \frac{\gamma^{'}}{||w||_2} γ=∣∣w∣∣2y(wTx+b)=∣∣w∣∣2γ′

可见,几何间隔才是点到超平面的真正距离,对于公式 y i ( w T x i + b ) {{y_i}({w^T}{x_i} + b)} yi(wTxi+b),许多教材中定义了一个专门的概念,那就是函数距离,当参数 w w w和 b b b固定时,点与超平面间的间隔越大,函数间隔越大。但函数间隔有一个不好的地方,当参数 w w w和 b b b按比例缩放时,所描述的超平面不会发生变化,但是函数距离却会跟着按比例缩放。为了克服这一不足,我们可以将函数距离固定为一个确定值,例如缩放到函数距离为1,这样求解出来的 w w w和 b b b虽然不是原来的 w w w和 b b b,但是所确定的超平面却是一样的,所以并不会对我们求解支持向量机最优超平面造成影响。那么,几何间隔就再次化简为: max ⁡ 1 ∥ w ∥ \max \frac{1}{{\left\| w \right\|}} max∥w∥1

因为我们刚假设支持向量到超平面的函数距离为1,所以,对于数据集中任意样本到超平面的函数距离都至少为1,求解时必须考虑上这一约束条件。另外,最大化 1 ∥ w ∥ \frac{1}{{\left\| w \right\|}} ∥w∥1和最小化 1 2 ∥ w ∥ 2 {\frac{1}{2}{{\left\| w \right\|}^2}} 21∥w∥2是等价的,所以,支持向量机最大化间隔可以表示为如下优化问题:
min ⁡ w , b 1 2 ∥ w ∥ 2 s . t . y i ( w T x i + b ) ⩾ 1 , i = 1 , 2 , ⋯   , N \mathop {\min }\limits_{w,b}\frac{1}{2}{\left\| w \right\|^2} \\ s.t.{\text{ }}{y_i}({w^T}{x_i} + b) \geqslant 1,{\text{ }}i = 1,2, \cdots ,N w,bmin21∥w∥2s.t. yi(wTxi+b)⩾1, i=1,2,⋯,N

2.4 线性可分支持向量机

综合上述内容可知,线性可分支持向量机可以表示为:
f ( x ) = s i g n ( w ∗ x + b ∗ ) f(x)=sign(w^*x+b^*) f(x)=sign(w∗x+b∗)

式中, w ∗ x + b ∗ = 0 w^*x+b^*=0 w∗x+b∗=0为与支持向量间隔最大化的分类超平面,可见与感知机是基本一样的,就多了个间隔最大化的要求。

三 支持向量机模型求解

3.1 目标函数

通过上述已知,支持向量机是要最大化支持向量与决策超平面之间的几何间隔,所以目标函数为:
max ⁡ w , b      γ = y ( w T x + b ) ∣ ∣ w ∣ ∣ 2      s . t      y i ( w T x i + b ) ∣ ∣ w ∣ ∣ 2 ≥ γ , i = 1 , 2 , . . . m \max_{w,b} \;\; \gamma = \frac{y(w^Tx + b)}{||w||_2} \;\; s.t \;\; \frac{y_i(w^Tx_i + b)}{||w||_2} \geq \gamma ,i =1,2,...m w,bmaxγ=∣∣w∣∣2y(wTx+b)s.t∣∣w∣∣2yi(wTxi+b)≥γ,i=1,2,...m

这个式子表示,最大化训练样本与超平面的几何间隔 γ \gamma γ,同时要保证约束条件每个训练样本与超平面的几何距离不小于 γ \gamma γ,目标函数可以改写为:
max ⁡ w , b      γ = γ ′ ∣ ∣ w ∣ ∣ 2      s . t      y i ( w T x i + b ) ≥ γ ′ , i = 1 , 2 , . . . m \max_{w,b} \;\; \gamma=\frac{\gamma^{'}}{||w||_2}\;\; s.t \;\; y_i(w^Tx_i + b) \geq \gamma^{'} ,i =1,2,...m w,bmaxγ=∣∣w∣∣2γ′s.tyi(wTxi+b)≥γ′,i=1,2,...m

一般我们都取函数间隔 γ ′ \gamma^{'} γ′为1,为什么呢,因为 γ ′ \gamma^{'} γ′的取值不影响最优化问题的解,假设 γ ′ \gamma^{'} γ′不为1,就相当于 w w w和 b b b变为了 γ ′ w \gamma^{'}w γ′w和 γ ′ b \gamma^{'}b γ′b,对目标函数和约束不等式都没有影响,都是可以约掉的,所以 γ ′ \gamma^{'} γ′为1完全没问题,此时最优化问题变为:
max ⁡ w , b      1 ∣ ∣ w ∣ ∣ 2      s . t      y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . m \max_{w,b} \;\; \frac{1}{||w||_2} \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 ,i =1,2,...m w,bmax∣∣w∣∣21s.tyi(wTxi+b)≥1,i=1,2,...m

可以转变为:
min ⁡ w , b      1 2 ∣ ∣ w ∣ ∣ 2 2      s . t      y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . m \min_{w,b} \;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 ,i =1,2,...m w,bmin21∣∣w∣∣22s.tyi(wTxi+b)≥1,i=1,2,...m

(有的地方说要最大化margin同时保证两类的支持向量到超平面的距离相等,所以有 m a x 2 ∣ ∣ w ∣ ∣ 2 max\frac{2}{||w||_2} max∣∣w∣∣22,个人认为这个解释很牵强,明明优化 γ \gamma γ的过程中两类就会互相博弈找到这个最优的超平面)根据下面定义的描述发现,这个凸最优化问题是一个凸二次规划问题(convex quadratic programming)。

目标函数和约束条件都为变量的线性函数------线性规划问题;

目标函数为变量的二次函数和约束条件为变量的线性函数------二次规划问题;

目标函数和约束条件都为非线性函数------非线性规划问题。

3.2 对偶问题转化及求解

在感知机中我们说过,利用对偶问题可以从不同角度看待同一个问题,可能会引入新的参数来帮助我们优化,在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,通过解对偶问题得到原始问题的解。

首先我们的优化目标函数可以使用拉格朗日乘子法 转变成拉格朗日函数:
L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 + ∑ i m λ i [ 1 − y i ( w T x i + b ) ] ,    λ i ≥ 0 L(w,b,\lambda)= \frac{1}{2}||w||_2^2 +\sum_i^m \lambda_i [1-y_i(w^Tx_i + b)], \; \lambda_i\geq0 L(w,b,λ)=21∣∣w∣∣22+i∑mλi[1−yi(wTxi+b)],λi≥0

目标函数的优化转变为:
min ⁡ w , b    max ⁡ λ    L ( w , b , λ ) \min_{w,b}\;\max_{\lambda}\; L(w,b,\lambda) w,bminλmaxL(w,b,λ)

这一步是什么意思呢,因为约束不等式 1 − y i ( w T x i + b ) ≤ 0 , λ i ≥ 0 1-y_i(w^Tx_i + b)\leq 0,\lambda_i\geq 0 1−yi(wTxi+b)≤0,λi≥0,所以加号后面整体小于等于0,只有当其取最大值是为0,此时 max ⁡ λ    L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 \max_{\lambda}\; L(w,b,\lambda)= \frac{1}{2}||w||_2^2 maxλL(w,b,λ)=21∣∣w∣∣22,即为原目标函数,这个变形称为广义拉格朗日函数的极小极大问题,它与原问题是完全等价的,在对偶性中,这个问题被称为原始问题(Primal problem)

这个优化函数满足KKT条件 ,可以实现强对偶 ,即可以通过**拉格朗日对偶(Lagrange duality)**将其转化为等价的对偶问题:
max ⁡ λ    min ⁡ w , b    L ( w , b , λ ) \max_{\lambda}\;\min_{w,b}\; L(w,b,\lambda) λmaxw,bminL(w,b,λ)

所以我们可以先求优化函数极小值对应的 w w w和 b b b,再求的极大值对应的拉格朗日乘子系数 λ \lambda λ:
∂ L ∂ w = 0    → w + ∑ i m λ i y i x i = 0    → w = ∑ i = 1 m λ i y i x i \frac{\partial L}{\partial w} = 0 \;\rightarrow w+\sum_i^m \lambda_iy_ix_i=0 \;\rightarrow w = \sum_{i=1}^{m}\lambda_iy_ix_i ∂w∂L=0→w+i∑mλiyixi=0→w=i=1∑mλiyixi

∂ L ∂ b = 0    → ∑ i m λ i y i = 0 \frac{\partial L}{\partial b} = 0 \;\rightarrow \sum_i^m \lambda_iy_i=0 ∂b∂L=0→i∑mλiyi=0

优化函数取得极小值时, w w w可以用 λ \lambda λ,而 b b b无所谓,取什么值都不影响优化函数取得极小值,所以可得:
J ( λ ) = min ⁡ w , b    L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 + ∑ i m λ i [ 1 − y i ( w T x i + b ) ] = 1 2 w T w − ∑ i = 1 m λ i y i w T x i − ∑ i = 1 m λ i y i b + ∑ i = 1 m λ i = 1 2 ∑ i = 1 m ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − ∑ i = 1 m λ i y i b + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 m ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − b ∑ i = 1 m λ i y i + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 m λ i y i x i T ∑ i = 1 m λ i y i x i + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j + ∑ i = 1 m λ i \begin{align} J(\lambda)&=\min_{w,b}\; L(w,b,\lambda)\\&= \frac{1}{2}||w||2^2 +\sum_i^m \lambda_i [1-y_i(w^Tx_i + b)]\\ &= \frac{1}{2}w^Tw-\sum{i=1}^{m}\lambda_iy_iw^Tx_i - \sum_{i=1}^{m}\lambda_iy_ib + \sum_{i=1}^{m}\lambda_i\\ &= \frac{1}{2}\sum_{i=1}^{m}(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i-(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i- \sum_{i=1}^{m}\lambda_iy_ib + \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1}^{m}(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i- b\sum_{i=1}^{m}\lambda_iy_i + \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1}^{m}\lambda_iy_ix_i^T\sum_{i=1}^{m}\lambda_iy_ix_i+ \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j+ \sum_{i=1}^{m}\lambda_i \end{align} J(λ)=w,bminL(w,b,λ)=21∣∣w∣∣22+i∑mλi[1−yi(wTxi+b)]=21wTw−i=1∑mλiyiwTxi−i=1∑mλiyib+i=1∑mλi=21i=1∑m(λiyixi)Ti=1∑mλiyixi−(λiyixi)Ti=1∑mλiyixi−i=1∑mλiyib+i=1∑mλi=−21i=1∑m(λiyixi)Ti=1∑mλiyixi−bi=1∑mλiyi+i=1∑mλi=−21i=1∑mλiyixiTi=1∑mλiyixi+i=1∑mλi=−21i=1,j=1∑mλiyixiTλjyjxj+i=1∑mλi
J ( λ ) J(\lambda) J(λ)完全是关于参数 λ \lambda λ的函数,因此:
max ⁡ λ    min ⁡ w , b    L ( w , b , λ ) = max ⁡ λ    J ( λ ) = max ⁡ λ    − 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j + ∑ i = 1 m λ i \max_{\lambda}\;\min_{w,b}\; L(w,b,\lambda)=\max_{\lambda}\;J(\lambda)=\max_{\lambda}\;-\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j+ \sum_{i=1}^{m}\lambda_i λmaxw,bminL(w,b,λ)=λmaxJ(λ)=λmax−21i=1,j=1∑mλiyixiTλjyjxj+i=1∑mλi

s . t . ∑ i m λ i y i = 0 ,    λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

转化为:
min ⁡ λ    1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j − ∑ i = 1 m λ i \min_{\lambda}\;\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j-\sum_{i=1}^{m}\lambda_i λmin21i=1,j=1∑mλiyixiTλjyjxj−i=1∑mλi

s . t . ∑ i m λ i y i = 0 ,    λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

求出上式取得极小值时对应的 λ \lambda λ向量就可以求出 w w w和 b b b了,这里一般需要用到SMO(Sequential Minimal Optimization,序列最小优化算法) 算法,还是比较复杂的,下面来看看怎么做。

3.3 序列最小优化算法(SMO)

上述最优化问题是要求解 m m m个参数 ( λ 1 , λ 2 , λ 3 , . . . , λ m ) (λ_1,λ_2,λ_3,...,λ_m) (λ1,λ2,λ3,...,λm),其他参数均为已知,有多种算法可以对上述问题求解,比如之前介绍过的次梯度下降应该就可以,但是算法复杂度均很大。序列最小最优化算法(SMO)可以高效的求解上述SVM问题,它把原始求解N个参数二次规划问题分解成很多个子二次规划问题分别求解,每个子问题只需要求解两个参数,方法类似于坐标上升,节省时间成本和降低了内存需求。每次启发式选择两个变量进行优化,不断循环,直到达到函数最优值。

为什么每次优化两个参数呢?像坐标下降不是每次只优化一个参数吗?因为我们这里有个约束, ∑ i m λ i y i = 0 \sum_i^m \lambda_iy_i=0 ∑imλiyi=0,如果认为m-1个都是固定值,那么剩下的那个也就确定了,所以选择每次优化两个。因为SMO比较复杂,本篇文章就不细说了,这里先这样提一下SMO,大家知道上面的优化是用SMO计算的就好。

使用SMO算法,我们得到了 max ⁡ λ    J ( λ ) \max_{λ}\;J(λ) maxλJ(λ)对应的 λ ∗ λ^* λ∗,所以:
w = ∑ i = 1 m λ i ∗ y i x i w = \sum_{i=1}^{m}λ_i^*y_ix_i w=i=1∑mλi∗yixi

因为对支持向量有: y i ( w T x i + b ) = 1 y_i(w^Tx_i+b)=1 yi(wTxi+b)=1,所以要根据这个等式解出 b b b需要将支持向量样本点代入,怎么获得支持向量呢?KKT条件中的对偶互补条件 λ i ( y i ( w T x i + b ) − 1 ) = 0 λ_i(y_i(w^Tx_i+b)−1)=0 λi(yi(wTxi+b)−1)=0,我们已经求出了 λ ∗ λ^* λ∗,如果 λ i > 0 λ_i>0 λi>0则有 y i ( w T x i + b ) = 1 y_i(w^Tx_i+b)=1 yi(wTxi+b)=1 ,即样本点为支持向量,求解 b b b:
y i 2 ( w T x i + b ) = y i y_i^2(w^Tx_i+b)=y_i yi2(wTxi+b)=yi

b = y i − w T x i = y i − ∑ i = 1 m λ i ∗ y i x i T x i b=y_i-w^Tx_i= y_i-\sum_{i=1}^{m}λ_i^*y_ix_i^Tx_i b=yi−wTxi=yi−i=1∑mλi∗yixiTxi

显然,支持向量大多不止一个,对线性可分支持向量机来说,可以证明分类超平面是存在且唯一的, b b b的解也就只有一个,此时用不同的支持向量求出来的 b b b都是相同的,如果数据有噪声,并不是完全线性可分的,那么为了增加模型的鲁棒性, b b b取所有值的平均值,即假设有n个支持向量,则:
b = 1 n ∑ i n ( y i − w T x i ) b=\frac{1}{n}\sum_i^n (y_i-w^Tx_i) b=n1i∑n(yi−wTxi)

至此,线性可分支持向量机的模型参数就求出来了,模型也就确定了。

四 线性可分支持向量机算法流程

综合以上全部内容,可以得到线性可分支持向量机的算法流程:

  • **输入:**线性可分的样本 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) T=(x_1,y_1),(x_2,y_2),...,(x_m,y_m) T=(x1,y1),(x2,y2),...,(xm,ym), x x x为 n n n维特征向量, y ∈ [ + 1 , − 1 ] y\in[+1,-1] y∈[+1,−1];
  • 输出: w , b w,b w,b,支持向量机模型 f ( x ) = s i g n ( w T x + b ) f(x)=sign(w^Tx+b) f(x)=sign(wTx+b)。
  1. 确定目标函数:

min ⁡ λ    1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j − ∑ i = 1 m λ i \min_{\lambda}\;\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j-\sum_{i=1}^{m}\lambda_i λmin21i=1,j=1∑mλiyixiTλjyjxj−i=1∑mλi

s . t . ∑ i m λ i y i = 0 ,    λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

  1. 使用SMO优化目标函数,得到对应的 λ ∗ λ^* λ∗;

  2. 根据 λ ∗ λ^* λ∗找到样本中的共k=1个支持向量,计算参数 w , b w,b w,b:

w ∗ = ∑ i = 1 m λ i ∗ y i x i w^* = \sum_{i=1}^{m}λ_i^*y_ix_i w∗=i=1∑mλi∗yixi

b ∗ = 1 k ∑ i k ( y i − w T x i ) b^*=\frac{1}{k}\sum_i^k (y_i-w^Tx_i) b∗=k1i∑k(yi−wTxi)

  1. 得到支持向量机模型 f ( x ) = s i g n ( w ∗ T x + b ∗ ) f(x)=sign(w^{*T}x+b^*) f(x)=sign(w∗Tx+b∗)。

五 总结

本文总结了在数据集线性可分情况下,使用支持向量机算法进行分类的思想------硬间隔最大化。然而,在多数应用中,数据集并非线性可分,如果只是在分类边界附近少数点造成线性不可分,这种情况下需要在硬间隔最大化目标函数基础上,引入松弛变量和惩罚因子,然后通过拉格朗日对偶性求解,这种方法称为软间隔最大化。如果大量样本线性不可分,则需要引入核技巧,往高维空间映射,转化为线性可分。对于这两部分内容,在后续博客中在总结了。

相关推荐
好评笔记2 分钟前
AIGC视频生成模型:Stability AI的SVD(Stable Video Diffusion)模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
坐吃山猪5 小时前
机器学习10-解读CNN代码Pytorch版
pytorch·机器学习·cnn
羊小猪~~6 小时前
深度学习基础--LSTM学习笔记(李沐《动手学习深度学习》)
人工智能·rnn·深度学习·学习·机器学习·gru·lstm
sci_ei1237 小时前
高水平EI会议-第四届机器学习、云计算与智能挖掘国际会议
数据结构·人工智能·算法·机器学习·数据挖掘·机器人·云计算
神经星星7 小时前
登Nature子刊!北大团队用AI预测新冠/艾滋病/流感病毒进化方向,精度提升67%
人工智能·深度学习·机器学习
Scabbards_8 小时前
用于牙科的多任务视频增强
人工智能·深度学习·算法·机器学习
鸭鸭鸭进京赶烤9 小时前
OpenAI秘密重塑机器人军团: 实体AGI的崛起!
人工智能·opencv·机器学习·ai·机器人·agi·机器翻译引擎
金融OG9 小时前
5. 马科维茨资产组合模型+AI金融智能体(qwen-max)识别政策意图方案(理论+Python实战)
大数据·人工智能·python·线性代数·机器学习·金融
智能汽车人9 小时前
自动驾驶---方案从有图迈进无图
人工智能·机器学习·自动驾驶