机器学习(西瓜书)第 6 章 支持向量机

6.1 算法原理

感知机要求就随便找一个超平面,只要能把正负样本分开就行

但是支持向量机不一样,它认为你不仅得把它分开,而且这个超平面还得尽可能的离正负样本远

6.2 间隔与支持向量

其中w = (wi;w2;...;wd)为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离

二维空间中超平面就是一条直线

样本空间中任意点X到超平面(w,b)的距离可写为:


注意这里是线性可分,下节课是线性不可分的软间隔

这个不是阶跃函数,这个是符号函数,阶跃函数在x<0时函数值为0,不是-1





(另一种推导方法省略了)

这就是支持向量机(Support Vector Machine,简称SVM)的基本型

6.3 对偶问题

注意到主问题本身是1 个凸二次规划问题,能直接用现成的优化计算包求解,但我们可以有更高效的办法.对主问题使用拉格朗日乘子法可得到其"对偶问题"(dual problem).具体来说,对主问题的每条约束添加拉格朗日乘子阿尔法i>=0

若阿尔法i= 0,则该样本将不会在最终模型式子的求和中出现,也就不会对f(x)有任何影响;

若阿尔法i > 0,则必有y_i*f(x_i)= 1,所对应的样本点位于最大间隔边界上,是一个支持向量.这显示出支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需

保留,最终模型仅与支持向量有关.

6.4 特征空间映射

在本章前面的讨论中,我们假设训练样本是线性可分的(支持向量机的前提是线性可分),即存在一个划分超平面能将训练样本正确分类.然而在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面.例如图6.3中的"异或"问题就不是线性可分的

6.5 核函数

6.6 软间隔与正则化

在前面的讨论中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.

缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此,要引入 "软间隔"(soft margin)的概念,如图6.4所示.


其中L0/1是0/1损失函数

障碍:0/1损失函数非凸、非连续,不宜优化!


6.7 支持向量回归

现在我们来考虑回归问题.给定训练样本,希望学得一个形如式(6.7)的回归模型,使得f(x)与g 尽可能接近,w 和b是待确定的模型参数.

对样本(x,y) ,传统回归模型通常直接基于模型输出f(x)与真实输出y 之

间的差别来计算损失,当且仅当f(x)与y 完全相同时,损失才为零.与此不同,支持向量回归(Support Vector Regression,简称SVR)假设我们能容忍f(x)与y 之间最多有e的偏差,即仅当f(x)与y 之间的差别绝对值大于e 时才计算损失.如图6.6所示,这相当于以f(x)为中心,构建了一个宽度为2 e的间隔带,若训练样本落入此间隔带,则认为是被预测正确的.

于是,S V R 问题可形式化为

其中C 为正则化常数


6.8 正则化

在统计学习中,归纳偏好项通过 结构风险 相关的项确定

6.9 如何使用SVM

以回归学习为例

在2e间隔带外面的才记损失

e-不敏感损失函数

支持向量回归SVR

SVR(支持向量回归)和SVM(支持向量机)都是支持向量方法的变体,用于不同类型的机器学习任务。下面是它们之间的主要区别:

1.任务类型:

SVM(支持向量机):用于分类 任务。SVM的目标是找到一个最佳的超平面,以将不同类别的数据分开,最大化类别之间的间隔。

SVR(支持向量回归):用于回归任务。SVR的目标是找到一个函数,该函数能够拟合训练数据,并且在尽可能小的误差范围内进行预测。

2.目标函数:

SVM:在分类问题中,SVM的目标是最小化分类错误,并且最大化分类超平面与最近样本点(支持向量)之间的间隔。

SVR:在回归问题中,SVR的目标是使预测函数与实际目标值之间的误差(在一个指定的容许范围内)最小化,同时尽可能使模型复杂度最低。

3.损失函数:

SVM:使用的是分类损失函数 ,如hinge loss

SVR:使用的是回归损失函数 ,如ε-insensitive loss(ε不敏感损失),它允许预测值和实际值之间的误差在ε范围内被忽略,从而减少了模型对小的误差的敏感性。

4.应用场景:

SVM:通常用于文本分类、图像识别等任务。

SVR:通常用于预测数值数据,如股市预测、房价预测等任务。

5.结果输出:

SVM:输出的是数据点的类别标签。

SVR:输出的是一个连续的数值预测。

尽管SVM和SVR在算法上有很多相似之处(例如,它们都使用支持向量来定义决策边界),但它们的应用场景和目标函数的不同使得它们适用于不同类型的问题。

相关推荐
封步宇AIGC1 分钟前
量化交易系统开发-实时行情自动化交易-Okex交易数据
人工智能·python·机器学习·数据挖掘
z千鑫3 分钟前
【人工智能】利用大语言模型(LLM)实现机器学习模型选择与实验的自动化
人工智能·gpt·机器学习·语言模型·自然语言处理·自动化·codemoss
shelly聊AI5 分钟前
AI赋能财务管理,AI技术助力企业自动化处理财务数据
人工智能·财务管理
波点兔6 分钟前
【部署glm4】属性找不到、参数错误问题解决(思路:修改模型包版本)
人工智能·python·机器学习·本地部署大模型·chatglm4
佚明zj1 小时前
全卷积和全连接
人工智能·深度学习
qzhqbb4 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨4 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌5 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭5 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention