线性支持向量机/核支持向量机
间隔
分类器的置信度:
- 概率 越大,y=1概率越大
- 点到分离超平面H的距离反映了置信度
函数间隔:样本,它到**(w,b)确定的超平面** 的函数间隔
****模型对样本的预测正确
大的函数间隔->确信正确的预测
训练数据集的函数间隔,所有样本里最小的那个
几何间隔:
点到决策界面(直线wx+b=0)的距离
最优间隔分类器:间隔最大化
线性SVM(原始)
输入:数据集S
输出:判别函数
判别届面/分离超平面
参数w,b通过解决最优化间隔分类器问题
其中 支持向量 线性可分情况下,至少有两个不同类别的点在边界上
函数间隔
几何间隔
间隔
拉格朗日
约束条件
广义拉格朗日函数 (求解偏导为0)
拉格朗日对偶(原问题与对偶问题):
原问题为凸函数时,严格满足,可取"="
满足Karush-Kuhn-Tucker(KKT)条件:
kkT对偶互补性
最有间隔分类器 : 对偶解
利用KKT对偶互补性条件
支持向量的数量远小于训练样本的数目!
- 固定α,有关于参数w,b最小化L得到
最大化θ,得到对偶问题最优解 d*
拉格朗日函数
求解w,b: 对w求偏导:
对b求偏导:
带入拉格朗日函数:
线性SVM(对偶)
输入:数据集S
输出:判别函数
判别届面/分离超平面
- 通过求解对偶问题得到最优解α*
- 得到原问题最优解w*,b*
软间隔
存在线性不可分的情况(有离群点或者噪声样本)但整体大部分仍可分
Hinge损失:
引入松驰变量ξ
- 软间隔对偶问题
拉格朗日函数
固定α、η,求w,b,ξ,最小化L(求偏导,偏导为0),得到
最大化θ,得到最优值d*、η,
ps. C表示惩罚程度:C较大惩罚重;小则惩罚松,可以容忍分错
非线性可分SVM(对偶问题)
输入:数据集S
输出:判别函数,分类超平面
- 选择参数C,通过求解对偶问题,得到最优解α*
- 得到原问题最优解w*,b*
- 判别函数
分离超平面
非线性SVM-核函数
利用核函数,将低维->高维,非线性变成线性可分
- 非线性变换 ,将原来线性SVM问题中的x -> Φ(x)
- 核函数:
- 核技巧:学习和预测时,选择使用核函数K(x,z);学习过程在映射后得空间进行
- **核函数定理:**x输入空间,k是x*x的对称的函数
K( , )是核函数 当且仅当 对任意数据D**,Gram矩阵总是半正定的**
常用核函数:
- 多项式核
p=2
映射函数
多项分类器
- 高斯核函数
g(x)K(x,z)g(z)仍是核函数,g(.)是任意函数
高斯核应用广, 超参少,有限维 -> 无限维
--