SMOTE | 使用SMOTE算法来处理不平衡数据的问题

需求
在学习机器学习识别信用卡欺诈交易这个项目的时候，样本数据集非常不平衡：

python 复制代码

data_df_new['Class'].value_counts()

0：正常 1：欺诈

在这里了解到了SMOTE算法：

过采样（Oversampling）
过采样是指增加少数类（ minority class）的样本数量，使其与多数类（ majority class）的样本数量相当或接近。这可以通过以下方式实现：

随机过采样：随机复制少数类的样本，直到达到期望的数量。
SMOTE（Synthetic Minority Over-sampling Technique）：生成合成新的少数类样本，而不是简单地复制现有样本，以减少过拟合的风险。
ADASYN（Adaptive Synthetic Sampling）：基于现有少数类样本生成新的合成样本，使用核方法或SMOTE算法。

欠采样（Undersampling）
欠采样是指减少多数类的样本数量，使其与少数类的样本数量相当或接近。这可以通过以下方式实现：

随机欠采样：随机选择多数类的样本，直到其数量与少数类相等。
基于聚类的欠采样：识别并移除多数类中的一些样本，特别是那些在特征空间中紧密聚集的样本，以减少信息损失。
基于邻近的欠采样：移除那些在特征空间中与少数类样本邻近的多数类样本，以保持类别之间的边界清晰。

在文章探索SMOTE算法中，你可以从0->1使用python跟着作者走一遍如何使用该方法来处理不平衡的数据集。

python 复制代码

data_df_new.shape

(284807, 19)

python 复制代码

# 构建自变量和因变量
X = data_df_new[x_feature]
y = data_df_new["Class"]

n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数：{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数：', X.shape[1])

样本个数：284807; 正样本占0.17%; 负样本占99.83%

特征维数： 18

python 复制代码

from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块
# 处理不平衡数据
sm = SMOTE(random_state=42)    # 处理过采样的方法
X, y = sm.fit_resample(X, y)
print('通过SMOTE方法平衡正负样本后')
n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数：{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数：', X.shape[1])

通过SMOTE方法平衡正负样本后

样本个数：568630; 正样本占50.00%; 负样本占50.00%

特征维数： 18

分类场景样本不均衡：本案例中针对正样本不足的数据，采用SMOTE算法进行过采样