不平衡数据集的单类分类算法

背包客研究2024-08-29 12:35

异常值或异常是与其他数据不符的罕见例子。

识别数据中的离群值称为离群值或异常检测，机器学习中专注于此问题的子领域称为单类分类。这些是无监督学习算法，旨在对"正常"示例进行建模，以便将新示例分类为正常或异常（例如离群值）。

单类分类算法可用于类别分布严重偏斜的二分类任务。这些技术可以适用于训练数据集中多数类别的输入示例，然后在保留测试数据集上进行评估。

尽管一类分类算法并非为解决这些类型的问题而设计，但它可以有效地用于不平衡的分类数据集，其中少数类别的示例没有或很少，或者数据集中没有连贯的结构来分离可以通过监督算法学习的类别。

在本教程中，您将了解如何对类分布严重偏斜的数据集使用一类分类算法。

完成本教程后，您将了解：

本教程分为五个部分，分别是：