数据挖掘——支持向量机分类器

yvestine2025-01-03 23:53

支持向量机

根据统计学习理论，学习机器的实际风险由经验风险值 和置信范围值 两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化 置信范围值，因此其泛化能力较差。

Vapnik于1995年提出的支持向量机（Support Vector Machine, SVM）以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是一种基于结构风险最小化准则的学习方法，其泛化能力明显优于一些传统的学习方法。

由于SVM 的求解最后转化成二次规划问题的求解，因此SVM的解是全局唯一的最优解

SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

注意分类的间隔为 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} ∣∣w∣∣2,不是 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} ∣∣w∣∣1

SVM目标函数求解：对偶问题求解

支持向量机解的稀疏性：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。

稀疏性理论解释：

观察以上两个式子可见：无论判别函数还是对偶形式中的目标函数都只涉及到高维空间中两个矢量之间的内积，而并不需要知道它们的具体坐标。