模式识别与机器学习 | 第七章支持向量机

线性支持向量机/核支持向量机

间隔

分类器的置信度：

概率越大，y=1概率越大
点到分离超平面H的距离反映了置信度

函数间隔：样本，它到**(w,b)确定的超平面** 的函数间隔

****模型对样本的预测正确

大的函数间隔->确信正确的预测

训练数据集的函数间隔，所有样本里最小的那个

几何间隔：

点到决策界面（直线wx+b=0）的距离

最优间隔分类器：间隔最大化

线性SVM(原始)

输入：数据集S

输出：判别函数

判别届面/分离超平面

参数w,b通过解决最优化间隔分类器问题

其中 支持向量 线性可分情况下，至少有两个不同类别的点在边界上

函数间隔

几何间隔

间隔

拉格朗日

约束条件

广义拉格朗日函数 （求解偏导为0）

拉格朗日对偶（原问题与对偶问题）：

原问题为凸函数时，严格满足，可取"="

满足Karush-Kuhn-Tucker(KKT)条件：

kkT对偶互补性

最有间隔分类器 : 对偶解

利用KKT对偶互补性条件

支持向量的数量远小于训练样本的数目！

固定α，有关于参数w,b最小化L得到

最大化θ，得到对偶问题最优解 d*

拉格朗日函数

求解w,b: 对w求偏导：

对b求偏导：

带入拉格朗日函数：

线性SVM（对偶）

输入：数据集S

输出：判别函数

判别届面/分离超平面

通过求解对偶问题得到最优解α*

得到原问题最优解w*，b*

软间隔

存在线性不可分的情况（有离群点或者噪声样本）但整体大部分仍可分

Hinge损失：

引入松驰变量ξ

软间隔对偶问题

拉格朗日函数

固定α、η，求w,b,ξ，最小化L（求偏导，偏导为0）,得到

最大化θ，得到最优值d*、η，

ps. C表示惩罚程度：C较大惩罚重；小则惩罚松，可以容忍分错

非线性可分SVM（对偶问题）

输入：数据集S

输出：判别函数，分类超平面

选择参数C，通过求解对偶问题，得到最优解α*

得到原问题最优解w*，b*

判别函数

分离超平面

非线性SVM-核函数

利用核函数，将低维->高维，非线性变成线性可分

非线性变换 ,将原来线性SVM问题中的x -> Φ(x)
核函数：
核技巧：学习和预测时，选择使用核函数K(x,z)；学习过程在映射后得空间进行
**核函数定理：**x输入空间，k是x*x的对称的函数

K( , )是核函数当且仅当对任意数据D**，Gram矩阵总是半正定的**

常用核函数：

多项式核

p=2

映射函数

多项分类器

高斯核函数

g(x)K(x,z)g(z)仍是核函数，g(.)是任意函数

高斯核应用广，超参少，有限维 -> 无限维

模式识别与机器学习 | 第七章 支持向量机

软间隔

非线性SVM-核函数

模式识别与机器学习 | 第七章支持向量机