SVM及其实践2 --- 对典型数据集的多分类实践

说明

本文为SVM系列的第二篇文章，主要是基于SVM对两份公开数据集的分类实践。建议读者在阅读本文前先看看本系列的第一篇博文 $1$ : SVM及其实践1 --- 概念、理论以及二分类实践-CSDN博客

Blog

2024.10.6 本文第一次撰写

一、Iris数据集以及基于SVM对该数据集的分类实践

1.1 Iris数据集介绍

Iris(鸢尾花卉数据集)我在之前关于聚类的博文 $2$ ++（毫米波雷达数据处理中的）聚类算法(2)--DBSCAN算法及其实践-CSDN博客++ 中对其有过比较详细的介绍和聚类实践，读者可以去这篇博文中了解，这里不再做细节的介绍，该数据集的下载读者可以去网站 $3$ ++UCI Machine Learning Repository++ 下载(这里面还有很多其它的数据集，后文的Glass数据集也可以在这里面下载！)。

该数据集一共有3类，包含150个样本，每个样本有4个属性，其物理意义是：花萼长度、花萼宽度、花瓣长度、花瓣宽度，我们需要基于这四个属性对样本进行分类。

1.2 基于SVM对Iris数据集的分类实践

分别使用线性核、多项式核、高斯核、sigmoid核对其进行训练(我只是在参数设置中分别选取了这几种核函数，其它的参数都为默认状态)。为了更好地展示准确率，我设计了1000次蒙特卡罗试验(关于蒙特卡罗试验，我再之前写过一篇博文 $4$ ,感兴趣的读者可以去查看)，每次试验下都对数据进行一次随机排布，然后选取前面60%的数据作为训练集，选取后面40%的数据作为测试集。得到的结果如下：

图1.1 不同核SVM下的分类准确率

图中垂直于X轴的线段对应1000次仿真下的准确率变化范围，空心菱形对应的位置为均值。从结果上来看线性核的效果最好，sigmoid核效果最差，不过考虑到我其它参数都设置为默认，所以可调(可优化)参数还有很多，这并不意味着线性核性能最好。

读者可以基于LIBSVM给的函数说明文档，去做一些不同超参数下的尝试，以优化得到更好的分类效果。

二、Glass数据集以及基于SVM对该数据集的分类实践

2.1 Glass数据集介绍

该数据集也可以从 $3$ 中下载，我下载到的该数据一共214组，分6类，每个数据包含9个属性，更具体的信息读者可以从 $3$ 中获取。

2.2 基于SVM对Glass数据集的分类实践

处理的方法与对Iris数据集的处理类似：设计了1000次蒙特卡罗试验，每次试验下都对数据进行一次随机排布，然后选取前面60%的数据作为训练集，选取后面40%的数据作为测试集。得到的结果如下：

图1.2 不同核SVM下的分类准确率

效果似乎都不是很理想，需要做一些超参数(比如高斯核函数中的γ值，默认下该值为0，但是我们可以通过调整该值来获得不一样的效果)调优的工作。关于调优，一种容易想到方法是：可以构建循环，对参数设置特定的步进，每个值下都进行多次训练和测试，得到一个分类准确率的均值，随后通过比较，得到最好准确率下的超参数值。