支持向量机（SVM）

一. 什么是SVM

1. 简介

SVM，曾经是一个特别火爆的概念。它的中文名：支持向量机（Support Vector Machine, 简称SVM）。因为它红极一时，所以关于它的资料特别多，而且杂乱。虽然如此，只要把握住SVM的一些特点，至少可以做到思路清晰。

（1）首先，SVM是按照监督类学习方式进行运作的。即：数据当中含有目标值。

（2）SVM采用监督学习方式，对数据进行二分类（这点跟逻辑回归一样）。但是，SVM和逻辑回归(LR)有有很多不同点。我们先看看相同点：

二者都是线性分类器
二者都是监督学习算法
都属于判别模型（KNN, SVM, LR都属于判别模型），所谓判别模型就是指：通过决策函数，判别各个样本之间的差别来进行分类。

不同点就很多了，现在先列举一些，LR之前已经介绍过，关于SVM的具体理论先放到后面

二者的损失函数和目标函数不一样。
二者对数据和参数的敏感度不同。SVM由于采用了类似于"过度边界"的方式，泛化能力更好

SVM可以作线性分类器，但是在引入核函数（Kernel Method）之后，也可以进行非线性分类

2.SVM分类

SVM大体上可分为：

线性可分SVM：大体就是指一条线，把样本分成两份这种，我们会先从这个入手，这个相关理论懂了，后面的就会很简单
线性SVM
非线性SVM（需要核函数的支持）

二. 详细介绍

1. 线性可分SVM

1.1 支撑点，支撑向量

这个将作为重点来理解，这个相关理论知道了，那么，剩下的就很好理解，首先，我们先看一张图，然后我们根据这张图引出两个概念：支撑点，支撑向量。

图一

我们看看图上面的三条线，首先，这是个二维平面，因此分割线可以表示成线性函数的形式：

关于w，它其实是一个权值向量，它可以表示成如下的形式，至于说为什么能够这么表示，我们一会儿再说。

在上图中，两个虚线之间，我们可以当做一个"过度区域"，在虚线上面，有一个蓝色的点，和两个红色的点正好位于虚线上面。对于这3个样本，我们标号1，2，3。我们大可以让alpha1，alpha2, alpha3不为0，其他的点alpha都是0。为什么可以这么做呢？因为边界的划定，也就是虚线，只受这三个边界点的影响（即：影响w向量）我们在现实中直接调整这三个边界点的alpha值，就可以确定界限。那么这三个点，我们就可以称他们为：**支撑点 **

如果你确定了一个起始点，那么起始点到各个点之间可以组成向量，这个起始点到支撑点之间就可以组成一个个：支撑向量

1.2 分割超平面与间隔最大化

首先，我们得知道什么是超平面？一般来说，二维就可以组成一个平面，那么如果是多维的呢？一般把超过二维的，就叫做超平面。由于超平面本身超出了一般人的认知，所以我们在理解分割超平面的时候，还是以最简单的二维平面入手，然后进行扩展。

在了解了什么是超平面之后，我们看这样一个图：

在这幅图中，我们看到了如此多的分割线，这些分割线都成功的把黑点和白点给区分开了。即：都把类别给分对了。那么，哪条线才是最优的呢？（如何分割超平面，就是解决这个问题）

我们就直接在二维空间一个基本问题入手：点到直线的距离入手。

我们假设有这么一条线：

再给定一个点（x0, y0）那么这个点到直线的距离就是：

然后我们在此基础上直接把分子的绝对值给去掉，去掉之后，运算结果就会有正负之分了，通过正负，可以判断这个点在这条直线的哪一侧。然后各个项给拆开如下：

我们令各项系数分别记为：A', B' C'。然后整个公式就可以写成向量相乘的形式：

我们直接把（A',B')记为wi向量，将后面的(x0,y0)记为x向量 C'可以记为b，于是就得到了上述式子。

在这个例子当中，只是给了一个二维平面，实际情况下，有可能是多维的。此时w向量也是多维的，可以记为w = (w1,w2,w3......wn)，其中这里的w1, w2对应的就是上面式子当中的A, B。我们再回过头看点到直线距离公式，看看那个分母。大致就可以猜出来一件事情：在多维空间中一个点到一个线的距离是：