KAGGLE竞赛实战2-捷信金融违约预测竞赛-part1-数据探索及baseline建立

竞赛链接:https://www.kaggle.com/competitions/home-credit-default-risk/

认识数据集:application的两张表是申请人信息

通过id关联bureau:过去的借款、previous_application两张表

而bureau_balance则代表对应的还款信息

表之间的关系如下:

第一部分code我们做数据探索:看缺失值、异常值、相关性情况,并做填补及字段筛选,而后用逻辑回归和随机森林分别建立baseline,最终得分0.70,离0.85的第一名得分有较大差距,后几讲会再优化

具体代码如下:

coding: utf-8

In1:

import numpy as np

In2:

import pandas as pd

import time

In3:

start_time=time.time()

In4:

application_train=pd.read_csv('./application_train.csv',nrows=100000)

In5:

application_test=pd.read_csv('./application_test.csv')

In6:

previous_application=pd.read_csv('./previous_application.csv',nrows=100000)

In7:

bureau_df=pd.read_csv('./bureau.csv',nrows=100000)

In8:

bureau_balance=pd.read_csv('./bureau_balance.csv',nrows=100000)

In9:

POS_CASH_balance=pd.read_csv('./POS_CASH_balance.csv',nrows=100000)

In10:

credit_card_balance=pd.read_csv('./credit_card_balance.csv',nrows=100000)

In11:

installments_payments=pd.read_csv('./installments_payments.csv',nrows=100000)

In12:

application_train.memory_usage()

In13:

print(f'application_train.shape:{application_train.shape}')

In14:

class_counts=application_train'TARGET'.value_counts()#

In15:

import matplotlib.pyplot as plt

plt.pie(class_counts,labels=class_counts.index,autopct='%1.1f%%')#显示一位小数的百分比

In16:

application_train.head()#发现训练集中缺失的id都出现在了测试集中

In17:

application_train.select_dtypes('object')#看哪些是文本类型

In18:

#看缺失情况

def missing(df):

missing_number=df.isnull().sum().sort_values(ascending=False)#sum看有几个缺失值,count看一共有几个值,如果直接count会踢掉缺失值再看有几个值

missing_percent=(df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)

missing_values=pd.concat(missing_number,missing_percent,axis=1,keys='missing_number','missing_percent')

return missing_values

In19:

missing(application_train).sort_values(by='missing_percent',ascending=False)

In20:

missing(application_train)missing(application_train)\['missing_number'>0].index

In21:

#想怎么填补

#类别型变量应该由众数填补

application_trainapplication_train\['NAME_TYPE_SUITE'=='Unaccompanied']'TARGET'.mean()

In22:

application_trainapplication_train\['NAME_TYPE_SUITE'.isna()]'TARGET'.mean()

In23:

#发现二者违约率不一样,不适合这样填补,因此填成一个特殊的群体

application_train'NAME_TYPE_SUITE'=application_train'NAME_TYPE_SUITE'.fillna('Unknow')

In24:

application_test'NAME_TYPE_SUITE'=application_test'NAME_TYPE_SUITE'.fillna('Unknow')

In25:

application_train'OWN_CAR_AGE'.isnull().sum()

In26:

#想一个人为啥没车,可能FLAG_OWN_CAR也是N

application_train.locapplication_train\['OWN_CAR_AGE'.isnull()&(application_train'FLAG_OWN_CAR'=='Y')]\['OWN_CAR_AGE','FLAG_OWN_CAR']

In27:

#填充没有车的人车龄为0

application_train.locapplication_train\['FLAG_OWN_CAR'=='N','OWN_CAR_AGE']=application_train.locapplication_train\['FLAG_OWN_CAR'=='N','OWN_CAR_AGE'].fillna(0)

application_test.locapplication_test\['FLAG_OWN_CAR'=='N','OWN_CAR_AGE']=application_test.locapplication_test\['FLAG_OWN_CAR'=='N','OWN_CAR_AGE'].fillna(0)

In28:

#看填充结果

application_train'OWN_CAR_AGE'.isna().sum()

In29:

#再看上次换电话号码的时间,发现有大量是申请当天换的电话号码,这些是没有意义的

application_train'DAYS_LAST_PHONE_CHANGE'.value_counts()

In30:

#考虑把这些设为缺失值,后面再用均值或者中位数填补

application_train'DAYS_LAST_PHONE_CHANGE'.replace(0,np.nan,inplace=True)

In31:

#有时没有缺失值,但有XNA,测试集没有,因此可以把它删掉

application_train'CODE_GENDER'.value_counts()

In32:

application_train=application_trainapplication_train\['CODE_GENDER'!='XNA']

In33:

#开始看异常值

#三类异常:看描述性统计,minmax是否远离均值/看箱线图,是否有离群点/3西格玛法则,看25%和75%分位数是否和minmax差别过大

application_train.describe()

In34:

#观察发现DAYS_EMPLOYED最大值特别大

(application_train'DAYS_EMPLOYED'/365).describe()

In35:

application_train.locapplication_train\['TARGET'==0,'DAYS_EMPLOYED'].hist()

In36:

#直方图只适合离散值,连续值需要核密度估计图

import seaborn as sns

In37:

sns.kdeplot(application_train.locapplication_train\['TARGET'==0,'DAYS_EMPLOYED']/365,label='target'=='0')

In38:

#写一个二分类的核密度直方图函数

def kde_plot(feature_name,df):

plt.figure(figsize=(8,6))

sns.kdeplot(df.locdf\['TARGET'==0,feature_name],label='target==0')

sns.kdeplot(df.locdf\['TARGET'==1,feature_name],label='target==1')

plt.legend()#显示曲线所代表的含义

plt.rcParams'font.sans-serif'='SimHei'

plt.rcParams'axes.unicode_minus'=False

plt.show()

In39:

kde_plot('DAYS_EMPLOYED',application_train)

#发现标签为0的异常值较多,因此

In40:

#把异常值置空并留一列说明这些是异常值

application_train'DAYS_EMPLOYED_ANOM'=application_train"DAYS_EMPLOYED"

application_train'DAYS_EMPLOYED'.replace({365243:np.nan},inplace=True)

application_test'DAYS_EMPLOYED_ANOM'=application_test"DAYS_EMPLOYED"

application_test'DAYS_EMPLOYED'.replace({365243:np.nan},inplace=True)

In41:

#看特征关联性,可视化;相关系数;特征重要性

In42:

kde_plot('EXT_SOURCE_3',application_train)

#发现这个字段对标签影响比较大,特征工程时可以多考虑

In43:

#再看看小提琴图,它既可以反应数据的分位数情况,也可以反应数据的密度情况

plt.figure(figsize=(10,8))

sns.violinplot(x='TARGET',y='EXT_SOURCE_3',data=application_train)

plt.show()

In44:

#再看几个连续型变量

kde_plot('DAYS_BIRTH',application_train)

In45:

#看相关性

correlations=application_train.corr()'TARGET'.sort_values()

correlations

In46:

correlations.tail(15)

#看正向最重要的15个特征

In47:

#看绝对值

correlations_abs=abs(correlations).sort_values(ascending=False):11

correlations_abs

In48:

#特征间关系,热力图,选10个最强的特征来画

correlations=application_train.corr()

In49:

plt.figure(figsize=(30,40))

sns.heatmap(correlationscorrelations_abs.index.tolist())

plt.show()

In50:

#发现留个变量有较强相关性

ext_data=application_train\['TARGET','DAYS_BIRTH','FLAG_EMP_PHONE','EXT_SOURCE_1','DAYS_EMPLOYED_ANOM']

In51:

ext_data_corrs=ext_data.corr()

In52:

plt.figure(figsize=(10,8))

sns.heatmap(ext_data_corrs,cmap='RdBu_r',annot=True,fmt=".2f")#颜色,把字写入

plt.show()

In53:

application_trainapplication_train\['DAYS_EMPLOYED_ANOM'==1]'NAME_INCOME_TYPE'.value_counts()

In54:

#发现新创建的这列DAYS_EMPLOYED_ANOM的信息可能已经被其它特征所反映,但如果能从业务角度挖掘出特别何原因,会对建模有很大帮助

In55:

#验证EXT_SOURCE_1和DAYS_BIRTH有相关性,用六边形图

x=application_train'EXT_SOURCE_1'

y=application_train'DAYS_BIRTH'

plt.hexbin(x,y,gridsize=30)

plt.show()

In56:

#海量数据处理的方法

import polars as pl

In57:

df_pl=pl.read_csv('application_train.csv')

In58:

df_pl.head()

In59:

#建立baseline

bureau=pd.read_csv('./bureau.csv',nrows=100000)

In60:

#先把类别型变量作数据编码。用label encoder,这对树模型不会有影响

#具体使用factorize,它对缺失值和异常值都会分配一个新值,防止自己先做填充出问题

#在合并时会遇到训练集和测试集对不齐(测试集多一列)的问题,解决方法是把训练集和测试集合起来再进行one-hot编码

#然后找到target是nan的

apply=application_train.append(application_test)

In61:

object_col=apply.dtypesapply.dtypes=='object'.index.to_list()

In62:

for col in object_col:

if len(applycol.unique())>2:

apply=pd.concat(apply,pd.get_dummies(apply\[col,prefix=col)],axis=1)#生成独热编码,prefix是前缀

apply.drop(columns=col,inplace=True)#inplace表示是否删副本

else:

applycol=pd.factorize(applycol)0#数值型编码

apply.head()

In63:

#分割训练集和测试集,target为null的就是测试集

application_test=applyapply\['TARGET'.isnull()]

application_test=application_test.drop('TARGET',axis=1)

application_train=apply\~apply\['TARGET'.isnull()]

In64:

#逻辑回归,需要填补缺失值,并进行缩放

from sklearn.preprocessing import MinMaxScaler

from sklearn.impute import SimpleImputer#用来算minmax

In65:

train=application_train.drop(columns='TARGET','SK_ID_CURR')#ID和TARGET作编号时无用

In66:

features=list(train.columns)

In67:

imputer=SimpleImputer(strategy='median')

In68:

scaler=MinMaxScaler(feature_range=(0,1))

scaler

In69:

#在训练集上进行拟合

imputer.fit(train.append(application_testfeatures))

In70:

train=imputer.transform(train)

test=imputer.transform(application_testfeatures)

train

In71:

scaler.fit(train)

train=scaler.transform(train)

test=scaler.transform(test)

test

In72:

#训练模型

from sklearn.linear_model import LogisticRegression

log_reg=LogisticRegression(C=0.0001)

log_reg.fit(train,application_train'TARGET')

In73:

#进行预测,确保只获取第二列(为1的概率)

log_reg_pred=log_reg.predict_proba(test):,1

test

In74:

#获取特征的系数

coefficients=log_reg.coef_0#把数组转为整数

coefficients

In75:

#看特征重要性

feature_importance=np.abs(coefficients)

In76:

#给特征重要性排序,得出每个特征的重要性排名

sorted_indices=np.argsort(feature_importance)::-1

In77:

for idx in sorted_indices:

print(f"{featuresidx},IMPORTANCE:{feature_importanceidx}")

In78:

np.argsort(feature_importance)

In79:

coefficients::-1

In80:

#保存结果

submit=application_test\['SK_ID_CURR']

In81:

submit'TARGET'=log_reg_pred

In82:

submit

In83:

#保存结果

submit.to_csv('baseline_model_log_reg.csv',index=False)

In84:

#再尝试下其它类型的模型,随机森林

#区别于逻辑回归,它不需要缩放

train=application_train.drop(columns='TARGET','SK_ID_CURR')#ID和TARGET作编号时无用

features=list(train.columns)

imputer=SimpleImputer(strategy='median')

imputer.fit(train.append(application_testfeatures))

train=imputer.transform(train)

test=imputer.transform(application_testfeatures)

In85:

from sklearn.ensemble import RandomForestClassifier

random_forest=RandomForestClassifier(n_estimators=1000,random_state=2024,verbose=1,n_jobs=-1)

In86:

random_forest.fit(train,application_train'TARGET')

#提取特征重要性

feature_importance_values=random_forest.feature_importances_

feature_importances=pd.DataFrame({'feature':features,'importance':feature_importance_values})

In88:

#在测试数据上预测

predictions=random_forest.predict_proba(test):,1

#并保存为提交文件

submit=application_test\['SK_ID_CURR']

submit'TARGET'=predictions

In89:

#保存文件

submit.to_csv('baseline_model_random_forest.csv',index=False)

#0.703分,比逻辑回归稍好些

相关推荐
AI产品测评官4 小时前
Moka与北森用户如何接入世纪云猎,搭建完整AI招聘寻访链路
人工智能
goldenrolan4 小时前
A公司物料替代测试系统 v1.7:从需求到 exe/apk 的 AI 辅助全链路实践
android·自动化测试·软件测试·python·ai
qq_366566504 小时前
2026最新:5款AI视频口型同步工具实测横评,视频翻译后嘴型对不上的终极解决方案
人工智能·计算机视觉·新媒体运营
ofoxcoding4 小时前
在AI API聚合平台配置DeepSeek V3.2提示词缓存实战:快速接入与成本优化指南
人工智能·spring·缓存·ai
Godspeed Zhao4 小时前
Level 4自动驾驶系统设计3——功能与场景3
人工智能·机器学习·自动驾驶
菜板春4 小时前
jupyter入门-手册-特征探索
python·jupyter
weixin_397574094 小时前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
梦想三三4 小时前
OpenCV银行卡数字识别项目(图像预处理与字符分割)
人工智能·opencv·计算机视觉
m0_634666734 小时前
Anthropic Fable/Mythos 被紧急暂停:前沿模型商业化开始碰到真正的政策墙
人工智能·ai·ai编程
Metaphor6924 小时前
使用 Python 将 PDF 转换为 HTML
python·pdf·html