【机器学习】深入探索SVM：支持向量机的原理与应用

[🍔 SVM引入](#🍔 SVM引入)

1.1什么是SVM?

1.2支持向量机分类

[1.3 线性可分、线性和非线性的区分](#1.3 线性可分、线性和非线性的区分)

[🍔 小结](#🍔 小结)

学习目标

知道SVM的概念

🍔 SVM引入

1.1什么是SVM?

看一个故事，故事是这样子的：

在很久以前的情人节，一位大侠要去救他的爱人，但魔鬼需要大侠先攻克他设置的防线，于是和他玩了一个游戏game。

魔鬼在桌子上似乎有规律放了两种颜色的球，说："你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。"

于是大侠这样放，干的不错？

然后魔鬼，又在桌上放了更多的球，似乎有一个球站错了阵营。

大侠苦思冥想似乎记得学过SVM技术，于是就采用SVM试试。

这里的 SVM就试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙。

现在即使魔鬼放了更多的球，棍仍然是一个好的分界线。

在SVM 工具箱中有另一个更加重要的 trick（招式） 。魔鬼看到大侠已经学会了前面一个trick，于是魔鬼给了大侠一个新的挑战。

现在，大侠没有棍可以很好帮他分开两种球了，现在怎么办呢？当然又想起了放大招---SVM。像所有武侠片中一样大侠桌子一拍，球飞到空中。然后，凭借大侠练就的轻功，大侠抓起一张纸，插到了两种球的中间。

现在，从魔鬼的角度看这些球，这些球看起来像是被一条曲线分开了。

最后，魔鬼被折服了

再之后，无聊的大人们，把这些球叫做 「data」 ，把棍子叫做 「classifier」 , 最大间隙trick 叫做 「optimization」 ，拍桌子叫做 「kernelling」 , 那张纸叫做 「hyperplane」。

1.2支持向量机分类

支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器。它是一种二分类的模型，当采用了核技巧之后，支持向量机可以用于非线性分类。不同类型的支持向量机解决不同问题：

（1）线性可分支持向量机（硬间隔支持向量机）：

当训练数据线性可分的时候，通过硬间隔最大化，学习得到一个线性可分支持向量机。

（2）线性支持向量机（软间隔支持向量机）：

当训练数据近似线性可分时，通过软间隔最大化，学习一个线性支持向量机。

（3）非线性支持向量机：

当训练数据不可分的时候，通过使用核技巧以及软间隔最大化，学得一个非线性支持向量机。

1.3 线性可分、线性和非线性的区分

第一个图是线性可分，我们借助线性可分支持向量机完成分类。第二个图是不能完全线性可分，我们通过线性支持向量机解决。第三个图是完全线性不可分的，需要借助非线性支持向量机分类。

通过上述描述，我们抽象其中的蓝球和红球，并将两种颜色的球转化为二维平面上的点坐标，篮球映射为黑球，红球映射为白球。使用直线H1，H2和H3分类这两类颜色的球，图中的H1不能很好的区分黑球和白球，可以看到H2和H3都能很好的区分这两种颜色的球。

区分数据集。 我们能够想到和H2和H3这样的直线一样可以区分两种颜色的球体有很多种条直线，虽然他们都能够很好的分类已经存在的黑球和白球，也就是我们之前讲到的训练集分类效果很好，训练误差为0。但是不能保证这些超平面在未知的实例上运行效果会很好，和上面魔鬼和大侠的例子一样，当魔鬼放置更多的黑球或白球的时候，我们提到的这些平面还能很好的让这些未知的球得到很好的分类吗？

我们这里考虑泛化误差的影响。 根据在检验样本上的运行效果，分类器必须从这些分类超平面中选择一个来表示它的决策边界。满足这个条件的很多，但是使得泛化误差最小的条件就是边际margin最大的情况。如左图的边际不及右边的边际margin大，我们选择右边的图作为边界最好的划分。因为在有新的点出现的时候左边图的边际会错误分类一些点，而右侧就能很好的分类。

🍔 小结

1.SVM学习的目的在于找到具有最大边缘的超平面。

为啥：因为最大边缘超平面可以使得我们的训练误差很小的情况下，当有新数据的到来时也能使得测试误差达到最小。

2.支持向量概念：

所有坐落在边际两边的超平面上的点被称作" 支持向量 (support vectors)"。

如下图，这两个特殊点是支撑我们构建最大边缘超平面的。这些点所在的边缘超平面上的点，称为支持向量。下图中红色的点对右图中的红色的直线或平面有支撑作用，这些点是关键点。而其他点对最优超平面都没有影响。