第六章 支持向量机
支持向量机是一种监督学习算法 ,主要用于分类和回归分析。它的核心思想是在特征空间中寻找一个最优超平面,将不同类别的数据分开,并且使得分类间隔(margin)最大化。
-
最优超平面(Optimal Hyperplane)
-
在二维空间中,超平面就是一条直线;在三维空间中是一个平面;更高维则是超平面
-
SVM 寻找的不是任意分隔线,而是间隔最大的那条分界线
-
-
支持向量(Support Vectors)
-
距离超平面最近的那些数据点
-
这些点"支撑"着最优超平面的位置
-
关键特性:只有支持向量会影响最终的决策边界,其他点可以被忽略
-
-
间隔(Margin)
-
超平面到最近数据点的距离
-
SVM 的目标是最大化这个间隔,因为更大的间隔通常意味着更好的泛化能力
-
硬间隔 :要求所有样本都必须被正确分类,且满足间隔约束,不允许任何样本落在间隔内或越过决策边界。
-
软间隔 :允许部分样本 违反间隔约束,通过引入松弛变量 (slack variables)来度量违反程度,在间隔最大化 和分类错误之间寻找平衡。
-
-
核函数------非线性支持向量机
-
通过核函数将数据从原始空间映射到高维特征空间,使得数据在高维特征空间线性可分,将原本的非线性问题转换为线性问题
-
是一种计算两个向量在高维特征空间中内积的函数 ,而无需显式地将向量映射到高维空间。
-
解决线性不可分问题
-
处理结构化数据
-