SMOTE | 使用SMOTE算法来处理不平衡数据的问题

  • 需求
    在学习机器学习识别信用卡欺诈交易这个项目的时候,样本数据集非常不平衡:
python 复制代码
data_df_new['Class'].value_counts()
  • 0: 正常 1:欺诈

在这里了解到了SMOTE算法:

  • 过采样(Oversampling)
    过采样是指增加少数类( minority class)的样本数量,使其与多数类( majority class)的样本数量相当或接近。这可以通过以下方式实现:
  1. 随机过采样:随机复制少数类的样本,直到达到期望的数量。
  2. SMOTE(Synthetic Minority Over-sampling Technique):生成合成新的少数类样本,而不是简单地复制现有样本,以减少过拟合的风险。
  3. ADASYN(Adaptive Synthetic Sampling):基于现有少数类样本生成新的合成样本,使用核方法或SMOTE算法。
  • 欠采样(Undersampling)
    欠采样是指减少多数类的样本数量,使其与少数类的样本数量相当或接近。这可以通过以下方式实现:
  1. 随机欠采样:随机选择多数类的样本,直到其数量与少数类相等。
  2. 基于聚类的欠采样:识别并移除多数类中的一些样本,特别是那些在特征空间中紧密聚集的样本,以减少信息损失。
  3. 基于邻近的欠采样:移除那些在特征空间中与少数类样本邻近的多数类样本,以保持类别之间的边界清晰。

在文章探索SMOTE算法中,你可以从0->1使用python跟着作者走一遍如何使用该方法来处理不平衡的数据集。

python 复制代码
data_df_new.shape

(284807, 19)

python 复制代码
# 构建自变量和因变量
X = data_df_new[x_feature]
y = data_df_new["Class"]

n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数:{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数:', X.shape[1])

样本个数:284807; 正样本占0.17%; 负样本占99.83%

特征维数: 18

python 复制代码
from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块
# 处理不平衡数据
sm = SMOTE(random_state=42)    # 处理过采样的方法
X, y = sm.fit_resample(X, y)
print('通过SMOTE方法平衡正负样本后')
n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数:{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数:', X.shape[1])

通过SMOTE方法平衡正负样本后

样本个数:568630; 正样本占50.00%; 负样本占50.00%

特征维数: 18

分类场景样本不均衡:本案例中针对正样本不足的数据,采用SMOTE算法进行过采样

相关推荐
未若君雅裁几秒前
JVM 垃圾回收算法与分代回收机制
java·jvm·算法
智者知已应修善业7 分钟前
【51单片机初始化D5-D8亮,每按键按下D1到D4全亮,再按下恢复,如此循环】2024-3-26
c++·经验分享·笔记·算法·51单片机
8Qi832 分钟前
LeetCode 4:寻找两个正序数组的中位数 —— 二分查找法
java·算法·leetcode·职场和发展·二分查找
8Qi836 分钟前
LeetCode 32:最长有效括号 —— 栈 + 标记法 题解
java·数据结构·算法·leetcode·职场和发展··括号匹配
机器学习之心39 分钟前
198种组合算法+优化CNN-LSTM+SHAP分析+新数据预测+多输出!深度学习可解释分析,强烈安利,粉丝必备
深度学习·算法·cnn-lstm·shap分析·198种组合算法
Tairitsu_H39 分钟前
[LC优选算法#3] 滑动窗口 | 将x减到0的最⼩操作数 | ⽔果成篮 | 字⺟异位词
c++·算法·leetcode·滑动窗口
bIo7lyA8v1 小时前
算法复杂度与能耗关系的多变量分析研究的技术8
算法
洛水水1 小时前
【力扣100题】76.搜索插入位置
数据结构·算法·leetcode
Techblog of HaoWANG1 小时前
智巡守卫:多模态巡检智能体算法服务端设计与实现——基于Ollama+Qwen3.5的自动化巡检报告生成系统
运维·人工智能·算法·目标检测·自动化·边缘计算
小蒋学算法1 小时前
算法-灌溉花园的最少龙头数目-贪心
算法