近期在金融风控领域完成了一个信用卡 一、数据特性与处理难点
该数据集包含28万条交易记录,欺诈样本仅占0.17%,呈现典型的极端不平衡分布。原始特征已通过PCA处理得到V1-V28数值型特征,需特别注意时间戳(Time)和交易金额(Amount)两个关键字段的处理。通过绘制交易时间分布图发现,凌晨时段的异常交易频率显著增加,这为后续特征工程提供了重要方向。
二、数据预处理的三大突破点
-
对交易金额进行RobustScaler处理,有效消除异常值干扰
-
将时间戳转换为24小时制的周期函数,捕捉不同时段的欺诈规律
-
通过热力图分析剔除V13等低相关特征,降低噪声干扰