【机器学习入门】一文读懂线性可分支持向量机（一）

一引言

在机器学习领域，支持向量机（SVM）是一种监督学习模型，用于分类和回归分析。SVM 最初由 Vladimir Vapnik 于 1963 年提出，并在随后的几十年里得到了极大的发展和完善。由于其强大的泛化能力、灵活性以及对高维数据的有效处理，SVM 已经成为许多实际问题中的首选方法之一。

支持向量机（SVM，Support Vecor Machine）是一种二分类算法，在集成学习和深度学习火起来之前支持向量机的使用非常广泛，其分类效果好、适用性广（线性、非线性都可用），功能真的是很棒棒，下来我们就来梳理一下支持向量机的原理。

二支持向量机原理

2.1 背景

从上一篇文章【技术干货】一文搞懂感知机算法：从理论到Python实战中我们可以知道，感知机的目标是找到一个将线性可分的数据一分为二的决策超平面：

如上图所示，决策超平面的一侧为正样本，另一侧为负样本，但是我们可以发现，满足这个特性的决策超平面并不是唯一的，在有限的线性可分样本中，正负样本点之间的间隔使得不同的决策超平面存在，那么如果样本点继续增加，这些决策超平面中那个分类效果最好呢？也就是说谁的泛华效果最好呢？------这就是支持向量机要解决的主要问题，也是支持向量机与感知机的主要区别。

2.2 支持向量

就上面的图来说，主观上看哪个超平面的分类泛化能力最强呢？我们认为红色的那条可能会比较好，这条线距离最近的红点区域和最近的蓝点区域都比较远，无论是红点还是蓝点，再向靠近超平面的方向增加一些点都没问题，还可以被这条超平面分的比较开，那两条虚线就没有这么好的效果，如下图所示，我们新增几个点，可以看出其分类效果的差别：

似乎可以得出这样的结论：超平面离直线两边的数据的间隔越大，对训练集的数据的局限性或噪声有最大的容忍能力，也就是所谓的鲁棒性。

所以，如果所有的样本点不只是可以被决策超平面分开，还和超平面保持一定的距离间隔，那么这样的分类超平面是更优的，支持向量机就是要找到使这个间隔最大的决策超平面 （即最大化下图中的margin）。训练样本中和这个超平面距离最近的样本点被称为支持向量，如下图虚线所经过的样本点即为支持向量：

2.3 函数间隔与几何间隔

最大化间隔的思想我们大概了解了，不过要最大化这个间隔首先得量化，怎么量化呢？

对于二分类学习，假设现在的数据是线性可分的，这时分类学习最基本的想法就是找到一个合适的超平面，该超平面能够将不同类别的样本分开，类似二维平面使用ax+by+c=0来表示，超平面实际上表示的就是高维的平面，如下图所示：

对数据点进行划分时，易知：当超平面距离与它最近的数据点的间隔越大，分类的鲁棒性越好，即当新的数据点加入时，超平面对这些点的适应性最强，出错的可能性最小。因此需要让所选择的超平面能够最大化这个间隔Gap（如下图所示），常用的间隔定义有两种，一种称之为函数间隔，一种为几何间隔，下面将分别介绍这两种间隔，并对SVM为什么会选用几何间隔做了一些阐述。

2.3.1 函数间隔

在决策超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0确定的情况下， ∣ w T x + b ∣ |w^Tx+b| ∣wTx+b∣能够表示点 x x x到超平面的距离远近； w T x + b w^Tx+b wTx+b和 y y y是否同号能够表示分类是否正确，所以可用 y ( w T x + b ) y(w^Tx+b) y(wTx+b)来表示分类的正确性及确定性，我们在感知机中就有类似的用法，这就是函数间隔的概念，定义函数间隔 γ ′ \gamma^{'} γ′为：
γ ′ = y ( w T x + b ) \gamma^{'} = y(w^Tx + b) γ′=y(wTx+b)

2.3.2 几何间隔

函数间隔虽然可以表示分类的正确性和确定性，但其缺点是只能在一个确定的超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0下比较样本点到超平面的相对距离，不同参数的超平面条件下计算的距离是不能比较大小的，比如超平面 2 w T x + 2 b = 0 2w^Tx+2b=0 2wTx+2b=0与 w T x + b = 0 w^Tx+b=0 wTx+b=0是同一个超平面，样本点与其真实距离没有变化，但是函数距离却翻了一倍，因此我们需要将参数加以约束，使其具备可比性，我们定义几何间隔：
γ = y ( w T x + b ) ∣ ∣ w ∣ ∣ 2 = γ ′ ∣ ∣ w ∣ ∣ 2 \gamma = \frac{y(w^Tx + b)}{||w||_2} = \frac{\gamma^{'}}{||w||_2} γ=∣∣w∣∣2y(wTx+b)=∣∣w∣∣2γ′

可见，几何间隔才是点到超平面的真正距离，对于公式 y i ( w T x i + b ) {{y_i}({w^T}{x_i} + b)} yi(wTxi+b)，许多教材中定义了一个专门的概念，那就是函数距离，当参数 w w w和 b b b固定时，点与超平面间的间隔越大，函数间隔越大。但函数间隔有一个不好的地方，当参数 w w w和 b b b按比例缩放时，所描述的超平面不会发生变化，但是函数距离却会跟着按比例缩放。为了克服这一不足，我们可以将函数距离固定为一个确定值，例如缩放到函数距离为1，这样求解出来的 w w w和 b b b虽然不是原来的 w w w和 b b b，但是所确定的超平面却是一样的，所以并不会对我们求解支持向量机最优超平面造成影响。那么，几何间隔就再次化简为： max ⁡ 1 ∥ w ∥ \max \frac{1}{{\left\| w \right\|}} max∥w∥1

因为我们刚假设支持向量到超平面的函数距离为1，所以，对于数据集中任意样本到超平面的函数距离都至少为1，求解时必须考虑上这一约束条件。另外，最大化 1 ∥ w ∥ \frac{1}{{\left\| w \right\|}} ∥w∥1和最小化 1 2 ∥ w ∥ 2 {\frac{1}{2}{{\left\| w \right\|}^2}} 21∥w∥2是等价的，所以，支持向量机最大化间隔可以表示为如下优化问题：
min ⁡ w , b 1 2 ∥ w ∥ 2 s . t . y i ( w T x i + b ) ⩾ 1 , i = 1 , 2 , ⋯ , N \mathop {\min }\limits_{w,b}\frac{1}{2}{\left\| w \right\|^2} \\ s.t.{\text{ }}{y_i}({w^T}{x_i} + b) \geqslant 1,{\text{ }}i = 1,2, \cdots ,N w,bmin21∥w∥2s.t. yi(wTxi+b)⩾1, i=1,2,⋯,N

2.4 线性可分支持向量机

综合上述内容可知，线性可分支持向量机可以表示为：
f ( x ) = s i g n ( w ∗ x + b ∗ ) f(x)=sign(w^*x+b^*) f(x)=sign(w∗x+b∗)

式中， w ∗ x + b ∗ = 0 w^*x+b^*=0 w∗x+b∗=0为与支持向量间隔最大化的分类超平面，可见与感知机是基本一样的，就多了个间隔最大化的要求。

三支持向量机模型求解

3.1 目标函数

通过上述已知，支持向量机是要最大化支持向量与决策超平面之间的几何间隔，所以目标函数为：
max ⁡ w , b γ = y ( w T x + b ) ∣ ∣ w ∣ ∣ 2 s . t y i ( w T x i + b ) ∣ ∣ w ∣ ∣ 2 ≥ γ , i = 1 , 2 , . . . m \max_{w,b} \;\; \gamma = \frac{y(w^Tx + b)}{||w||_2} \;\; s.t \;\; \frac{y_i(w^Tx_i + b)}{||w||_2} \geq \gamma ,i =1,2,...m w,bmaxγ=∣∣w∣∣2y(wTx+b)s.t∣∣w∣∣2yi(wTxi+b)≥γ,i=1,2,...m

这个式子表示，最大化训练样本与超平面的几何间隔 γ \gamma γ，同时要保证约束条件每个训练样本与超平面的几何距离不小于 γ \gamma γ，目标函数可以改写为：
max ⁡ w , b γ = γ ′ ∣ ∣ w ∣ ∣ 2 s . t y i ( w T x i + b ) ≥ γ ′ , i = 1 , 2 , . . . m \max_{w,b} \;\; \gamma=\frac{\gamma^{'}}{||w||_2}\;\; s.t \;\; y_i(w^Tx_i + b) \geq \gamma^{'} ,i =1,2,...m w,bmaxγ=∣∣w∣∣2γ′s.tyi(wTxi+b)≥γ′,i=1,2,...m

一般我们都取函数间隔 γ ′ \gamma^{'} γ′为1，为什么呢，因为 γ ′ \gamma^{'} γ′的取值不影响最优化问题的解，假设 γ ′ \gamma^{'} γ′不为1，就相当于 w w w和 b b b变为了 γ ′ w \gamma^{'}w γ′w和 γ ′ b \gamma^{'}b γ′b，对目标函数和约束不等式都没有影响，都是可以约掉的，所以 γ ′ \gamma^{'} γ′为1完全没问题，此时最优化问题变为：
max ⁡ w , b 1 ∣ ∣ w ∣ ∣ 2 s . t y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . m \max_{w,b} \;\; \frac{1}{||w||_2} \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 ,i =1,2,...m w,bmax∣∣w∣∣21s.tyi(wTxi+b)≥1,i=1,2,...m

可以转变为：
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 2 s . t y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . m \min_{w,b} \;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 ,i =1,2,...m w,bmin21∣∣w∣∣22s.tyi(wTxi+b)≥1,i=1,2,...m

（有的地方说要最大化margin同时保证两类的支持向量到超平面的距离相等，所以有 m a x 2 ∣ ∣ w ∣ ∣ 2 max\frac{2}{||w||_2} max∣∣w∣∣22，个人认为这个解释很牵强，明明优化 γ \gamma γ的过程中两类就会互相博弈找到这个最优的超平面）根据下面定义的描述发现，这个凸最优化问题是一个凸二次规划问题（convex quadratic programming)。

目标函数和约束条件都为变量的线性函数------线性规划问题；

目标函数为变量的二次函数和约束条件为变量的线性函数------二次规划问题；

目标函数和约束条件都为非线性函数------非线性规划问题。

3.2 对偶问题转化及求解

在感知机中我们说过，利用对偶问题可以从不同角度看待同一个问题，可能会引入新的参数来帮助我们优化，在约束最优化问题中，常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题，通过解对偶问题得到原始问题的解。

首先我们的优化目标函数可以使用拉格朗日乘子法 转变成拉格朗日函数：
L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 + ∑ i m λ i [ 1 − y i ( w T x i + b ) ] , λ i ≥ 0 L(w,b,\lambda)= \frac{1}{2}||w||_2^2 +\sum_i^m \lambda_i [1-y_i(w^Tx_i + b)], \; \lambda_i\geq0 L(w,b,λ)=21∣∣w∣∣22+i∑mλi[1−yi(wTxi+b)],λi≥0

目标函数的优化转变为：
min ⁡ w , b max ⁡ λ L ( w , b , λ ) \min_{w,b}\;\max_{\lambda}\; L(w,b,\lambda) w,bminλmaxL(w,b,λ)

这一步是什么意思呢，因为约束不等式 1 − y i ( w T x i + b ) ≤ 0 , λ i ≥ 0 1-y_i(w^Tx_i + b)\leq 0,\lambda_i\geq 0 1−yi(wTxi+b)≤0,λi≥0，所以加号后面整体小于等于0，只有当其取最大值是为0，此时 max ⁡ λ L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 \max_{\lambda}\; L(w,b,\lambda)= \frac{1}{2}||w||_2^2 maxλL(w,b,λ)=21∣∣w∣∣22，即为原目标函数，这个变形称为广义拉格朗日函数的极小极大问题，它与原问题是完全等价的，在对偶性中，这个问题被称为原始问题（Primal problem)。

这个优化函数满足KKT条件 ，可以实现强对偶 ，即可以通过**拉格朗日对偶（Lagrange duality）**将其转化为等价的对偶问题：
max ⁡ λ min ⁡ w , b L ( w , b , λ ) \max_{\lambda}\;\min_{w,b}\; L(w,b,\lambda) λmaxw,bminL(w,b,λ)

所以我们可以先求优化函数极小值对应的 w w w和 b b b，再求的极大值对应的拉格朗日乘子系数 λ \lambda λ：
∂ L ∂ w = 0 → w + ∑ i m λ i y i x i = 0 → w = ∑ i = 1 m λ i y i x i \frac{\partial L}{\partial w} = 0 \;\rightarrow w+\sum_i^m \lambda_iy_ix_i=0 \;\rightarrow w = \sum_{i=1}^{m}\lambda_iy_ix_i ∂w∂L=0→w+i∑mλiyixi=0→w=i=1∑mλiyixi

∂ L ∂ b = 0 → ∑ i m λ i y i = 0 \frac{\partial L}{\partial b} = 0 \;\rightarrow \sum_i^m \lambda_iy_i=0 ∂b∂L=0→i∑mλiyi=0

优化函数取得极小值时， w w w可以用 λ \lambda λ，而 b b b无所谓，取什么值都不影响优化函数取得极小值，所以可得：
J ( λ ) = min ⁡ w , b L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 + ∑ i m λ i [ 1 − y i ( w T x i + b ) ] = 1 2 w T w − ∑ i = 1 m λ i y i w T x i − ∑ i = 1 m λ i y i b + ∑ i = 1 m λ i = 1 2 ∑ i = 1 m ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − ∑ i = 1 m λ i y i b + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 m ( λ i y i x i ) T ∑ i = 1 m λ i y i x i − b ∑ i = 1 m λ i y i + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 m λ i y i x i T ∑ i = 1 m λ i y i x i + ∑ i = 1 m λ i = − 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j + ∑ i = 1 m λ i \begin{align} J(\lambda)&=\min_{w,b}\; L(w,b,\lambda)\\&= \frac{1}{2}||w||2^2 +\sum_i^m \lambda_i [1-y_i(w^Tx_i + b)]\\ &= \frac{1}{2}w^Tw-\sum{i=1}^{m}\lambda_iy_iw^Tx_i - \sum_{i=1}^{m}\lambda_iy_ib + \sum_{i=1}^{m}\lambda_i\\ &= \frac{1}{2}\sum_{i=1}^{m}(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i-(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i- \sum_{i=1}^{m}\lambda_iy_ib + \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1}^{m}(\lambda_iy_ix_i)^T\sum_{i=1}^{m}\lambda_iy_ix_i- b\sum_{i=1}^{m}\lambda_iy_i + \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1}^{m}\lambda_iy_ix_i^T\sum_{i=1}^{m}\lambda_iy_ix_i+ \sum_{i=1}^{m}\lambda_i\\ &=-\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j+ \sum_{i=1}^{m}\lambda_i \end{align} J(λ)=w,bminL(w,b,λ)=21∣∣w∣∣22+i∑mλi[1−yi(wTxi+b)]=21wTw−i=1∑mλiyiwTxi−i=1∑mλiyib+i=1∑mλi=21i=1∑m(λiyixi)Ti=1∑mλiyixi−(λiyixi)Ti=1∑mλiyixi−i=1∑mλiyib+i=1∑mλi=−21i=1∑m(λiyixi)Ti=1∑mλiyixi−bi=1∑mλiyi+i=1∑mλi=−21i=1∑mλiyixiTi=1∑mλiyixi+i=1∑mλi=−21i=1,j=1∑mλiyixiTλjyjxj+i=1∑mλi
J ( λ ) J(\lambda) J(λ)完全是关于参数 λ \lambda λ的函数，因此：
max ⁡ λ min ⁡ w , b L ( w , b , λ ) = max ⁡ λ J ( λ ) = max ⁡ λ − 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j + ∑ i = 1 m λ i \max_{\lambda}\;\min_{w,b}\; L(w,b,\lambda)=\max_{\lambda}\;J(\lambda)=\max_{\lambda}\;-\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j+ \sum_{i=1}^{m}\lambda_i λmaxw,bminL(w,b,λ)=λmaxJ(λ)=λmax−21i=1,j=1∑mλiyixiTλjyjxj+i=1∑mλi

s . t . ∑ i m λ i y i = 0 , λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

转化为：
min ⁡ λ 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j − ∑ i = 1 m λ i \min_{\lambda}\;\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j-\sum_{i=1}^{m}\lambda_i λmin21i=1,j=1∑mλiyixiTλjyjxj−i=1∑mλi

s . t . ∑ i m λ i y i = 0 , λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

求出上式取得极小值时对应的 λ \lambda λ向量就可以求出 w w w和 b b b了，这里一般需要用到SMO(Sequential Minimal Optimization，序列最小优化算法) 算法，还是比较复杂的，下面来看看怎么做。

3.3 序列最小优化算法（SMO）

上述最优化问题是要求解 m m m个参数 ( λ 1 , λ 2 , λ 3 , . . . , λ m ) (λ_1,λ_2,λ_3,...,λ_m) (λ1,λ2,λ3,...,λm)，其他参数均为已知，有多种算法可以对上述问题求解，比如之前介绍过的次梯度下降应该就可以，但是算法复杂度均很大。序列最小最优化算法(SMO)可以高效的求解上述SVM问题，它把原始求解N个参数二次规划问题分解成很多个子二次规划问题分别求解，每个子问题只需要求解两个参数，方法类似于坐标上升，节省时间成本和降低了内存需求。每次启发式选择两个变量进行优化，不断循环，直到达到函数最优值。

为什么每次优化两个参数呢？像坐标下降不是每次只优化一个参数吗？因为我们这里有个约束， ∑ i m λ i y i = 0 \sum_i^m \lambda_iy_i=0 ∑imλiyi=0，如果认为m-1个都是固定值，那么剩下的那个也就确定了，所以选择每次优化两个。因为SMO比较复杂，本篇文章就不细说了，这里先这样提一下SMO，大家知道上面的优化是用SMO计算的就好。

使用SMO算法，我们得到了 max ⁡ λ J ( λ ) \max_{λ}\;J(λ) maxλJ(λ)对应的 λ ∗ λ^* λ∗，所以：
w = ∑ i = 1 m λ i ∗ y i x i w = \sum_{i=1}^{m}λ_i^*y_ix_i w=i=1∑mλi∗yixi

因为对支持向量有： y i ( w T x i + b ) = 1 y_i(w^Tx_i+b)=1 yi(wTxi+b)=1，所以要根据这个等式解出 b b b需要将支持向量样本点代入，怎么获得支持向量呢？KKT条件中的对偶互补条件 λ i ( y i ( w T x i + b ) − 1 ) = 0 λ_i(y_i(w^Tx_i+b)−1)=0 λi(yi(wTxi+b)−1)=0，我们已经求出了 λ ∗ λ^* λ∗，如果 λ i > 0 λ_i>0 λi>0则有 y i ( w T x i + b ) = 1 y_i(w^Tx_i+b)=1 yi(wTxi+b)=1 ，即样本点为支持向量，求解 b b b：
y i 2 ( w T x i + b ) = y i y_i^2(w^Tx_i+b)=y_i yi2(wTxi+b)=yi

b = y i − w T x i = y i − ∑ i = 1 m λ i ∗ y i x i T x i b=y_i-w^Tx_i= y_i-\sum_{i=1}^{m}λ_i^*y_ix_i^Tx_i b=yi−wTxi=yi−i=1∑mλi∗yixiTxi

显然，支持向量大多不止一个，对线性可分支持向量机来说，可以证明分类超平面是存在且唯一的， b b b的解也就只有一个，此时用不同的支持向量求出来的 b b b都是相同的，如果数据有噪声，并不是完全线性可分的，那么为了增加模型的鲁棒性， b b b取所有值的平均值，即假设有n个支持向量，则：
b = 1 n ∑ i n ( y i − w T x i ) b=\frac{1}{n}\sum_i^n (y_i-w^Tx_i) b=n1i∑n(yi−wTxi)

至此，线性可分支持向量机的模型参数就求出来了，模型也就确定了。

四线性可分支持向量机算法流程

综合以上全部内容，可以得到线性可分支持向量机的算法流程：

**输入：**线性可分的样本 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) T=(x_1,y_1),(x_2,y_2),...,(x_m,y_m) T=(x1,y1),(x2,y2),...,(xm,ym)， x x x为 n n n维特征向量， y ∈ [ + 1 , − 1 ] y\in[+1,-1] y∈[+1,−1]；

输出： w , b w,b w,b，支持向量机模型 f ( x ) = s i g n ( w T x + b ) f(x)=sign(w^Tx+b) f(x)=sign(wTx+b)。

确定目标函数：

min ⁡ λ 1 2 ∑ i = 1 , j = 1 m λ i y i x i T λ j y j x j − ∑ i = 1 m λ i \min_{\lambda}\;\frac{1}{2}\sum_{i=1,j=1}^{m}\lambda_iy_ix_i^T\lambda_jy_jx_j-\sum_{i=1}^{m}\lambda_i λmin21i=1,j=1∑mλiyixiTλjyjxj−i=1∑mλi

s . t . ∑ i m λ i y i = 0 , λ i ≥ 0 s.t. \sum_i^m \lambda_iy_i=0,\;\lambda_i\geq0 s.t.i∑mλiyi=0,λi≥0

使用SMO优化目标函数，得到对应的 λ ∗ λ^* λ∗；

根据 λ ∗ λ^* λ∗找到样本中的共k=1个支持向量，计算参数 w , b w,b w,b：

w ∗ = ∑ i = 1 m λ i ∗ y i x i w^* = \sum_{i=1}^{m}λ_i^*y_ix_i w∗=i=1∑mλi∗yixi

b ∗ = 1 k ∑ i k ( y i − w T x i ) b^*=\frac{1}{k}\sum_i^k (y_i-w^Tx_i) b∗=k1i∑k(yi−wTxi)

得到支持向量机模型 f ( x ) = s i g n ( w ∗ T x + b ∗ ) f(x)=sign(w^{*T}x+b^*) f(x)=sign(w∗Tx+b∗)。

五总结

本文总结了在数据集线性可分情况下，使用支持向量机算法进行分类的思想------硬间隔最大化。然而，在多数应用中，数据集并非线性可分，如果只是在分类边界附近少数点造成线性不可分，这种情况下需要在硬间隔最大化目标函数基础上，引入松弛变量和惩罚因子，然后通过拉格朗日对偶性求解，这种方法称为软间隔最大化。如果大量样本线性不可分，则需要引入核技巧，往高维空间映射，转化为线性可分。对于这两部分内容，在后续博客中在总结了。