矿物分类案列（一）六种方法对数据的填充

import pandas as pd
data=pd.read_excel('矿物数据.xlsx')
data=data[data['矿物类型']!='E']
data=data.drop('序号',axis=1)
x_whole=data.iloc[:,:-1]
y_whole=data.iloc[:,-1]

2.把标签转化为数值

把矿物类型A，B，C，D类转化成机器可读的数字1，2，3，4

python 复制代码

labels_dict={'A':1,'B':2,'C':3,'D':4}
en_labels=[labels_dict[label] for label in data['矿物类型']]
y_whole=pd.Series(en_labels,name='矿物类型')

3.把异常数据转化为nan

用pandas库将可以转化为数字类型的数据转化为数字，不能转化的数据写为nan

python 复制代码

# 异常数据转化为nan
for column_name in x_whole.columns:
    x_whole[column_name]=pd.to_numeric(x_whole[column_name],errors='coerce')

4.数据Z标准化

python 复制代码

#对数据Z标准化
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
X_whole_Z=scaler.fit_transform(x_whole)
X_whole_Z=pd.DataFrame(X_whole_Z,columns=x_whole.columns)

5.划分训练集测试集

python 复制代码

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(X_whole_Z,y_whole)

6.创建一个新的fill_data.py文件，用来存放填充训练数据和填充测试数据的方法

方法①：删除有缺失值的行

python 复制代码

import pandas as pd
#只保留完整数据集
def cca_train_fill(x_train,y_train):
    data=pd.concat([x_train,y_train],axis=1)
    data=data.reset_index(drop=True)
    data=data.dropna()
    return data.iloc[:,:-1],data.iloc[:,-1]
def cca_test_fill(x_test,y_test):
    data=pd.concat([x_test,y_test],axis=1)
    data=data.reset_index(drop=True)
    data=data.dropna()
    return data.iloc[:,:-1],data.iloc[:,-1]

方法②：平均值填充处理（测试集用训练集对应的平均值来填充）

由于每一类的平均值都要分开处理所以我们先将每一类分别提取出来

python 复制代码

def mean_train_fill(x_train,y_train):
    data=pd.concat([x_train,y_train],axis=1)
    data=data.reset_index(drop=True)
    A=data[data['矿物类型']==1]
    B=data[data['矿物类型']==2]
    C=data[data['矿物类型']==3]
    D=data[data['矿物类型']==4]

    A=mean_method_train(A)
    B=mean_method_train(B)
    C=mean_method_train(C)
    D=mean_method_train(D)
    data=pd.concat([A,B,C,D])
    return data.drop('矿物类型',axis=1),data['矿物类型']
def mean_test_fill(x_train,y_train,x_test,y_test):
    data_train = pd.concat([x_train, y_train], axis=1)
    data_train = data_train.reset_index(drop=True)
    A_train = data_train[data_train['矿物类型'] == 1]
    B_train = data_train[data_train['矿物类型'] == 2]
    C_train = data_train[data_train['矿物类型'] == 3]
    D_train = data_train[data_train['矿物类型'] == 4]

    data_test = pd.concat([x_test, y_test], axis=1)
    data_test = data_test.reset_index(drop=True)
    A_test = data_test[data_test['矿物类型'] == 1]
    B_test = data_test[data_test['矿物类型'] == 2]
    C_test = data_test[data_test['矿物类型'] == 3]
    D_test = data_test[data_test['矿物类型'] == 4]

    A_test=mean_method_test(A_train,A_test)
    B_test = mean_method_test(B_train, B_test)
    C_test = mean_method_test(C_train,C_test)
    D_test = mean_method_test(D_train, D_test)
    data = pd.concat([A_test, B_test, C_test, D_test])
    return data.drop('矿物类型', axis=1), data['矿物类型']

def mean_method_train(data):
    fill_values=data.mean()
    data=data.fillna(fill_values)
    return data
def mean_method_test(train_data,test_data):
    fill_values=train_data.mean()
    test_data=test_data.fillna(fill_values)
    return test_data

方法③：中位数填充处理（测试集用训练集对应的中位数来填充）

python 复制代码

def median_train_fill(x_train,y_train):
    data = pd.concat([x_train, y_train], axis=1)
    data = data.reset_index(drop=True)
    A = data[data['矿物类型'] == 1]
    B = data[data['矿物类型'] == 2]
    C = data[data['矿物类型'] == 3]
    D = data[data['矿物类型'] == 4]

    A = median_method_train(A)
    B = median_method_train(B)
    C = median_method_train(C)
    D = median_method_train(D)
    data = pd.concat([A, B, C, D])
    return data.drop('矿物类型', axis=1), data['矿物类型']
def median_test_fill(x_train,y_train,x_test,y_test):
    data_train = pd.concat([x_train, y_train], axis=1)
    data_train = data_train.reset_index(drop=True)
    A_train = data_train[data_train['矿物类型'] == 1]
    B_train = data_train[data_train['矿物类型'] == 2]
    C_train = data_train[data_train['矿物类型'] == 3]
    D_train = data_train[data_train['矿物类型'] == 4]
    data_test = pd.concat([x_test, y_test], axis=1)
    data_test = data_test.reset_index(drop=True)
    A_test = data_test[data_test['矿物类型'] == 1]
    B_test = data_test[data_test['矿物类型'] == 2]
    C_test = data_test[data_test['矿物类型'] == 3]
    D_test = data_test[data_test['矿物类型'] == 4]
    A_test=median_method_test(A_train,A_test)
    B_test = median_method_test(B_train, B_test)
    C_test = median_method_test(C_train,C_test)
    D_test = median_method_test(D_train, D_test)
    data = pd.concat([A_test, B_test, C_test, D_test])
    return data.drop('矿物类型', axis=1), data['矿物类型']
def median_method_train(data):
    fill_values = data.median()
    data = data.fillna(fill_values)
    return data
def median_method_test(train_data,test_data):
    fill_values=train_data.median()
    test_data=test_data.fillna(fill_values)
    return test_data

方法④：众数填充处理（测试集用训练集对应的众数来填充）

python 复制代码

def mode_train_fill(x_train,y_train):   
    data = pd.concat([x_train, y_train], axis=1)
    data = data.reset_index(drop=True)
    A = data[data['矿物类型'] == 1]
    B = data[data['矿物类型'] == 2]
    C = data[data['矿物类型'] == 3]
    D = data[data['矿物类型'] == 4]

    A = mode_method_train(A)
    B = mode_method_train(B)
    C = mode_method_train(C)
    D = mode_method_train(D)
    data = pd.concat([A, B, C, D])
    return data.drop('矿物类型', axis=1), data['矿物类型']
def mode_test_fill(x_train,y_train,x_test,y_test):
    data_train = pd.concat([x_train, y_train], axis=1)
    data_train = data_train.reset_index(drop=True)
    A_train = data_train[data_train['矿物类型'] == 1]
    B_train = data_train[data_train['矿物类型'] == 2]
    C_train = data_train[data_train['矿物类型'] == 3]
    D_train = data_train[data_train['矿物类型'] == 4]
    data_test = pd.concat([x_test, y_test], axis=1)
    data_test = data_test.reset_index(drop=True)
    A_test = data_test[data_test['矿物类型'] == 1]
    B_test = data_test[data_test['矿物类型'] == 2]
    C_test = data_test[data_test['矿物类型'] == 3]
    D_test = data_test[data_test['矿物类型'] == 4]
    A_test=mode_method_test(A_train,A_test)
    B_test = mode_method_test(B_train, B_test)
    C_test = mode_method_test(C_train,C_test)
    D_test = mode_method_test(D_train, D_test)
    data = pd.concat([A_test, B_test, C_test, D_test])
    return data.drop('矿物类型', axis=1), data['矿物类型']
def mode_method_train(data):
    fill_values = data.apply(lambda x: x.mode().iloc[0] if len(x.mode())>0 else None)
    data = data.fillna(fill_values)
    return data
def mode_method_test(train_data,test_data):
    fill_values=train_data.apply(lambda x: x.mode().iloc[0] if len(x.mode())>0 else None)
    test_data=test_data.fillna(fill_values)
    return test_data

方法⑤：线性回归预测处理

使用线性回归模型填充缺失值，将缺失值作为目标变量（Y），其他完整数据作为特征（X）。
优先填充缺失值较少的特征（如钙、PH值），以提高预测准确性。
训练时需区分训练集（完整数据）和测试集（缺失数据），训练完成后预测缺失值并填充。

注意：：

1.将x_train和y_train连接后有必要进行reset_index操作，避免后面iloc出现索引错误

2.对于填补空缺值这个回归任务来说，矿物类型这一列无用需要去除

3.data.isnull().sum()会将每列的空缺值总合以Series返回，用sort_values()方法完成从小到大排序

4.filling_features很关键用来一步一步存放没有空缺的特征列名，并用这些特征数据中没有空缺的行作为训练集，有空缺的行则数据作为测试集x，将线性回归预测的结果y作为那一个空缺的数据并填入，循环往复补全数据，在填补测试集数据时只需注意还是用训练集的数据进行训练

python 复制代码

from sklearn.linear_model import LinearRegression
def lr_train_fill(x_train,y_train):
    train_data_all=pd.concat([x_train,y_train],axis=1)
    train_data_all=train_data_all.reset_index(drop=True)
    train_data_X=train_data_all.drop('矿物类型',axis=1)
    num_null = train_data_X.isnull().sum()
    num_null_sorted=num_null.sort_values(ascending=True)
    filling_features=[]
    for i in num_null_sorted.index:
        filling_features.append(i)
        if num_null_sorted[i]!=0:#当前特征是否有空缺的内容，用来判断是否开始训练模型

            X=train_data_X[filling_features].drop(i,axis=1)
            y=train_data_X[i]

            row_number_mg_null=train_data_X[train_data_X[i].isnull()].index.tolist()#获取空数据列表
            X_train=X.drop(row_number_mg_null,axis=0)#非空的数据作为训练数据
            y_train=y.drop(row_number_mg_null,axis=0)##非空的数据作为训练标签
            x_test=X.iloc[row_number_mg_null]#空的数据作为测试数据
            lr=LinearRegression()
            lr.fit(X_train,y_train)
            fill_values=lr.predict(x_test)
            train_data_X.loc[row_number_mg_null,i]=fill_values
            print('完成训练数据集中'{}'列数据的填充'.format(i))
    return train_data_X,train_data_all['矿物类型']
def lr_tset_fill(x_train,y_train,x_test,y_test):
    train_data_all=pd.concat([x_train,y_train],axis=1)
    train_data_all=train_data_all.reset_index(drop=True)
    train_data_X=train_data_all.drop('矿物类型',axis=1)
    test_data_all=pd.concat([x_test,y_test],axis=1).reset_index(drop=True)
    test_data_X=test_data_all.drop('矿物类型',axis=1)
    num_null = test_data_X.isnull().sum()
    num_null_sorted=num_null.sort_values(ascending=True)
    filling_features=[]
    for i in num_null_sorted.index:
        filling_features.append(i)
        if num_null_sorted[i]!=0:#当前特征是否有空缺的内容，用来判断是否开始训练模型

            X_train=train_data_X[filling_features].drop(i,axis=1)
            y_train=train_data_X[i]
            X_test=test_data_X[filling_features].drop(i,axis=1)
            row_number_mg_null=test_data_X[test_data_X[i].isnull()].index.tolist()#获取空数据列表
            x_test=X_test.iloc[row_number_mg_null]#空的数据作为测试数据
            lr=LinearRegression()
            lr.fit(X_train,y_train)
            fill_values=lr.predict(x_test)
            test_data_X.loc[row_number_mg_null,i]=fill_values
            print('完成测试数据集中'{}'列数据的填充'.format(i))
    return test_data_X,test_data_all['矿物类型']

方法⑥：随机森林预测处理

与回归处理类似

python 复制代码

from sklearn.ensemble import RandomForestRegressor
def rf_train_fill(x_train,y_train):
    train_data_all=pd.concat([x_train,y_train],axis=1)
    train_data_all=train_data_all.reset_index(drop=True)
    train_data_X=train_data_all.drop('矿物类型',axis=1)
    num_null = train_data_X.isnull().sum()
    num_null_sorted=num_null.sort_values(ascending=True)
    filling_features=[]
    for i in num_null_sorted.index:
        filling_features.append(i)
        if num_null_sorted[i]!=0:#当前特征是否有空缺的内容，用来判断是否开始训练模型

            X=train_data_X[filling_features].drop(i,axis=1)
            y=train_data_X[i]

            row_number_mg_null=train_data_X[train_data_X[i].isnull()].index.tolist()#获取空数据列表
            X_train=X.drop(row_number_mg_null,axis=0)#非空的数据作为训练数据
            y_train=y.drop(row_number_mg_null,axis=0)##非空的数据作为训练标签
            x_test=X.iloc[row_number_mg_null]#空的数据作为测试数据
            rf=RandomForestRegressor(n_estimators=100,random_state=42)
            rf.fit(X_train,y_train)
            fill_values=rf.predict(x_test)
            train_data_X.loc[row_number_mg_null,i]=fill_values
            print('完成训练数据集中'{}'列数据的填充'.format(i))
    return train_data_X,train_data_all['矿物类型']
def rf_tset_fill(x_train,y_train,x_test,y_test):
    train_data_all=pd.concat([x_train,y_train],axis=1)
    train_data_all=train_data_all.reset_index(drop=True)
    train_data_X=train_data_all.drop('矿物类型',axis=1)
    test_data_all=pd.concat([x_test,y_test],axis=1).reset_index(drop=True)
    test_data_X=test_data_all.drop('矿物类型',axis=1)
    num_null = test_data_X.isnull().sum()
    num_null_sorted=num_null.sort_values(ascending=True)
    filling_features=[]
    for i in num_null_sorted.index:
        filling_features.append(i)
        if num_null_sorted[i]!=0:#当前特征是否有空缺的内容，用来判断是否开始训练模型

            X_train=train_data_X[filling_features].drop(i,axis=1)
            y_train=train_data_X[i]
            X_test=test_data_X[filling_features].drop(i,axis=1)
            row_number_mg_null=test_data_X[test_data_X[i].isnull()].index.tolist()#获取空数据列表
            x_test=X_test.iloc[row_number_mg_null]#空的数据作为测试数据
            rf = RandomForestRegressor(n_estimators=100, random_state=42)
            rf.fit(X_train, y_train)
            fill_values=rf.predict(x_test)
            test_data_X.loc[row_number_mg_null,i]=fill_values
            print('完成测试数据集中'{}'列数据的填充'.format(i))
    return test_data_X,test_data_all['矿物类型']

7.调用填充方法，生成各自方法填充后的数据，并保存到各自的excel文件中

由于训练集样本不平衡，我们采用smote过采样来平衡数据

python 复制代码

import fill_data
#1.删除空白数据行处理
# x_train_fill,y_train_fill=fill_data.cca_train_fill(x_train,y_train)
# x_test_fill,y_test_fill=fill_data.cca_train_fill(x_test,y_test)
#2.平均值填充处理
# x_train_fill,y_train_fill=fill_data.mean_train_fill(x_train,y_train)
# x_test_fill,y_test_fill=fill_data.mean_test_fill(x_train_fill,y_train_fill,x_test,y_test)
#中位数填充处理
# x_train_fill,y_train_fill=fill_data.median_train_fill(x_train,y_train)
# x_test_fill,y_test_fill=fill_data.median_test_fill(x_train_fill,y_train_fill,x_test,y_test)
# 众数填充处理
x_train_fill,y_train_fill=fill_data.mode_train_fill(x_train,y_train)
x_test_fill,y_test_fill=fill_data.mode_test_fill(x_train_fill,y_train_fill,x_test,y_test)
#线性回归预测填充处理
# x_train_fill,y_train_fill=fill_data.lr_train_fill(x_train,y_train)
# x_test_fill, y_test_fill = fill_data.lr_tset_fill(x_train_fill, y_train_fill, x_test, y_test)
#随机森林预测填充处理
x_train_fill,y_train_fill=fill_data.rf_train_fill(x_train,y_train)
x_test_fill, y_test_fill = fill_data.rf_tset_fill(x_train_fill, y_train_fill, x_test, y_test)
#smote拟合数据
from imblearn.over_sampling import SMOTE
oversample=SMOTE(k_neighbors=1,random_state=42)#保证数据拟合效果，随机种子
x_train_fill,y_train_fill=oversample.fit_resample(x_train_fill,y_train_fill)

#数据存入excel
train_data=pd.concat([y_train_fill,x_train_fill],axis=1)
train_data.to_excel('训练集[随机森林预测填充].xlsx',index=False)
test_data=pd.concat([y_test_fill,x_test_fill],axis=1)
test_data.to_excel('测试集[随机森林预测填充].xlsx',index=False)

矿物分类案列 （一）六种方法对数据的填充

矿物数据项目介绍：

数据问题与处理方案：

数据填充策略讨论：

模型选择与任务类型：

模型训练计划：

一.数据集填充

1.读取数据

2.把标签转化为数值

3.把异常数据转化为nan

4.数据Z标准化

5.划分训练集测试集

6.创建一个新的fill_data.py文件，用来存放填充训练数据和填充测试数据的方法

方法①：删除有缺失值的行

方法②：平均值填充处理（测试集用训练集对应的平均值来填充）

方法③：中位数填充处理（测试集用训练集对应的中位数来填充）

方法④：众数填充处理（测试集用训练集对应的众数来填充）

方法⑤：线性回归预测处理

方法⑥：随机森林预测处理

7.调用填充方法，生成各自方法填充后的数据，并保存到各自的excel文件中

矿物分类案列（一）六种方法对数据的填充