机器学习-模型评估优化

过拟合与欠拟合

任务：

拟合反应速率（rate）与温度（temperature）数据，预测85度时的反应速率

欠拟合

过拟合

例2：

欠拟合

过拟合

欠拟合与过拟合

模型不合适，导致其无法对数据实现有效预测

模型对数据的预测情况

	训练数据	预测数据
欠拟合	不准确	不准确
过拟合	准确	不准确
好模型	准确	准确

欠拟合可以通过观察训练数据及时发现，通过优化模型结果解决
如何解决过拟合问题

原因：

模型结构过于复杂（维度过高）
使用了过多属性，模型训练时包含了干扰项信息

解决办法：

简化模型结构（使用低阶模型，比如线性模型）
数据预处理，保留主成分信息（数据PCA处理）
在模型训练时，增加正则化项（regularization）

增加正则项

数据分离与混淆矩阵

建立模型的意义，不在于对训练数据做出准确预测，更在与对新数据的准确预测

对全数据进行数据分离，部分用于训练，部分用于新数据的结果预测
分离训练数据与测试数据

把数据分成两部分：训练集、测试集
使用训练集数据进行模型训练
使用测试集数据进行预测，更有效地评估模型对于新数据的预测表现

混淆矩阵（Confusion Matrix）

分类任务中，计算测试数据集预测准确率（accuracy）以评估模型表现

局限性：无法真实反映模型针对各个分类的预测准确度

准确率可以方便的用于衡量模型的整体预测效果，但无法反应细节信息，具体表现在：

没有体现数据预测的实际分布情况
没有体现模型的错误预测的类型

混淆矩阵，又称为误差矩阵，用于衡量分类算法的准确程度

通过混淆矩阵，计算更丰富的模型评估指标

特点：

分类任务中，相比单一的预测准确率，混淆矩阵提供了更全面的模型评估信息（TP\TN\FP\FN）
通过混淆矩阵，我们可以计算出多样的模型表现衡量指标，从而更好地选择模型

衡量指标的选择取决于应用场景

垃圾邮件检测（正样本为"垃圾邮件"）：希望普通邮件（负样本）不要被判断为垃圾邮件（正样本），即：判断为垃圾邮件的样本都是判断正确的，需要关注精确率，还希望所有的垃圾邮件尽可能被判断出来，需要关注召回率
异常交易检测（正样本为"异常交易"）：希望判断为正常的交易（负样本）中尽可能不存在异常交易，还需要工作特异度

模型优化

数据质量决定模型表现的上限

数据属性的意义，是否为无关数据
不同属性数据的数量级差异性如何
是否有异常数据
采集数据的方法是否合理，采集到的数据是否有代表性
对于标签结果，要确保标签判定规则的一致性（统一标准）

数据操作：

删除不必要的属性 - 减少过拟合、节约运算时间
数据预处理：归一化、标准化 - 平衡数据影响，加快训练收敛
确定是否保留或过滤掉异常数据 - 提高鲁棒性
尝试不同的模型，对比模型表现 - 帮助确定更合适的模型

目标：

在确定模型类别后，如何让模型表现更好、

三方面：数据、模型核心参数、正则化

尝试以下方法：

遍历核心参数组合，评估对应模型表现（比如：逻辑回归边界函数考虑多项式、KNN尝试不同的n_neighbors值）
扩大数据样本
增加或减少数据属性
对数据进行降维处理
对模型进行正则化处理，调整正则项的数值

选择使用KNN模型，尝试不同n_neighbors值对结果的影响

KNN模型中，模型复杂度由n_neighbors值决定
n_neighbors值越小，模型复杂度越高

训练数据集准确率 随着模型复杂而提高
测试数据集准确率 在模型过于简单或过于复杂的情况时下降

实战准备

实战-酶活性预测

生成新数据并用于预测

python 复制代码

X_range = np.linspace(40,90,300).reshape(-1,1)
y_range_predict = lr1.predict(X_range)

生成多项式（二次）数据：

python 复制代码

from sklearn.preprocessing import PolynomialFeatures
poly2=PolynomialFeatures(degree=2)
X_2_train = poly2.fit_transform(X_train)
X_2_test = poly2.transform(X_test)

实战-质量好坏预测

数据分离

python 复制代码

from skklearn.model_selection import train_test_split
X_train,X_test,Y_train,y_test = train_test_split(X,y,random_state=4,test_size=0.4)

生成决策区域数据：

python 复制代码

xx,yy = np.meshgrid(np.arange(0,10,0.05),np.arange(0,10,0.05))
x_range = np.c_[xx.ravel(),yy.ravel()]
y_range_predict = knn.predict(x_range)

可视化决策区域

python 复制代码

bad_knn = plt.scatter(x_range[:,0][y_range_predict==0],x_range[:,1][y_range_predict==0])
good_knn = plt.scatter(x_range[:,0][y_range_predict==1],x_range[:,1][y_range_predict==1])

计算混淆矩阵：

python 复制代码

from sklearn.metrics import confusion_matrix
cm= = confusion_matrix(y_test,y_test_predict)
TP = cm[1,1]
TN = cm[0,0]
FP = cm[0,1]
FN = cm[1,0]

实战-酶活性预测

基于T-R-train.csv数据，建立线性回归模型，计算其在T-R-test.csv数据上的r2分数，可视化模型预测结果
加入多项式特征（2次、5次），建立回归模型
计算多项式回归模型对测试数据进行预测的r2分数，判断哪个模型预测更准确
可视化多项式回归模型数据预测结果，判断哪个模型预测更准确

导包加载数据

python 复制代码

import pandas as pd
import numpt as np
data_train = pd.read_csv('T-R-train.csv')

赋值

python 复制代码

X_train = data_train.loc[:,'T']
y_train = data_train.loc[:,'rate']

可视化

python 复制代码

from matplotlib import pyplot as plt
fig1 = plt.figure(figsize=(5,5))
plt.scatter(X_train,y_train)
plt.title('raw data')
plt.xlabel('temperature')
plt.ylabel('rate')
plt.show()

线性回归

python 复制代码

X_train = np.array(X_train).reshape(-1,1)
from sklearn.linear_model import LinearRegression
lr1 = LinearRegression()
lr1.fit(X_train,y_train)

加载测试数据

python 复制代码

data_test = pd.read_csv('T-R-test.csv')
X_test = data_test.loc[:,'T']
y_test = data_test.loc[:,'rate']

计算r2分数

python 复制代码

X_test = np.array(X_test).reshape(-1,1)
y_train_predict = lr1.predict(X_train)
y_test_predict = lr1.predict(X_test)
from sklearn.metrics import r2_score
r2_train = r2_score(y_train,y_train_predict)
r2_test = r2_score(y_test,y_test_predict)
print('training r2:',r2_train)
print('test r2',r2_test)

可视化模型预测结果

python 复制代码

X_range = np.linspace(40,90,300).reshape(-1,1)
y_range_predict = lr1.predict(X_range)
fig2=plt.figure(figsize=(5,5))
plt.plot(X_range,y_range_predict)
plt.scatter(X_train,y_train)
plt.title('prediction data')
plt.xlabel('trediction data')
plt.ylabel('rate')
plt.show()

多项式模型

python 复制代码

from sklearn.preprocessing import PolynomialFeatures
poly2 = PolynomialFeatures(degree=2)
X_2_train = poly2.fit_transform(X_train)
X_2_test = poly2.transform(X_test)

r2分数

python 复制代码

lr2 = LinearRegression()
lr2.fit(X_2_train,y_train)
y_2_train_predict = lr2.predict(X_2_train)
y_2_test_predict = lr2.predict(X_2_test)
r2_2_train = r2_score(y_train,y_2_train_predict)
r2_2_test = r2_score(y_test,y_2_test_predict)
print('training r2_2:',r2_2_train)
print('test r2_2',r2_2_test)

可视化

python 复制代码

X_2_range = np.linspace(40,90,300).reshape(-1,1)
X_2_range = poly2.transform(X_2_range)
y_2_range_predict = lr2.predict(X_2_range)

python 复制代码

fi3=plt.figure(figsize=(5,5))
plt.plot(X_range,y_2_range_predict)
plt.scatter(X_train,y_train)
plt.scatter(X_test,y_test)
plt.title('polynomial prediction resilt(2)')
plt.xlabel('temperature')
plt.ylabel('rate')
plt.show()

5次多项式

python 复制代码

from sklearn.preprocessing import PolynomialFeatures
poly5 = PolynomialFeatures(degree=5)
X_5_train = poly5.fit_transform(X_train)
X_5_test = poly5.transform(X_test)

python 复制代码

lr5 = LinearRegression()
lr5.fit(X_5_train,y_train)
y_5_train_predict = lr5.predict(X_5_train)
y_5_test_predict = lr5.predict(X_5_test)
r2_5_train = r2_score(y_train,y_5_train_predict)
r2_5_test = r2_score(y_test,y_5_test_predict)
print('training r2_5:',r2_5_train)
print('test r2_5',r2_5_test)

python 复制代码

X_5_range = np.linspace(40,90,300).reshape(-1,1)
X_5_range = poly5.transform(X_5_range)
y_5_range_predict = lr5.predict(X_5_range)

python 复制代码

fi4=plt.figure(figsize=(5,5))
plt.plot(X_range,y_5_range_predict)
plt.scatter(X_train,y_train)
plt.scatter(X_test,y_test)
plt.title('polynomial prediction resilt(5)')
plt.xlabel('temperature')
plt.ylabel('rate')
plt.show()

实战-质量好坏预测

基于data_class_raw.csv数据，根据高斯分布概率密度函数，寻找异常点并剔除
基于data_class_processed.csv数据，进行PCA处理，确定重要数据维度及成分
完成数据分离，数据分离参数：random_state=4,test_size=0.4
建立KNN模型完成分类，n_neighbors取10，计算分类准确率，可视化分类边界
计算测试数据集对应的混淆矩阵，计算准确率、召回率、特异度、精确率、F1分数
尝试不同的n_neighbors(1-20)，计算其在训练数据集、测试数据集上的准确率并作图

导包加载数据

python 复制代码

import pandas as pd
import numpy as np
data = pd.read_csv('data_class_raw.csv')

赋值

python 复制代码

X=data.drop(['y'],axis=1)
y=data.loc[:,'y']

可视化

python 复制代码

from matplotlib import pyplot as plt
fig1 = plt.figure(figsize=(5,5))
bad = plt.scatter(X.loc[:,'x1'][y==0],X.loc[:,'x2'][y==0])
good = plt.scatter(X.loc[:,'x1'][y==1],X.loc[:,'x2'][y==1])
plt.legend((good,bad),('good','bad'))
plt.title('raw data')
plt.xlabel('x1')
plt.ylabel('x2')
plt.show()

异常检测

python 复制代码

from sklearn.covariance import EllipticEnvelope
ad_model = EllipticEnvelope(contamination=0.02)
ad_model.fit(X[y==0])
y_predict_bad = ad_model.predict(X[y==0])

可视化

python 复制代码

fig2 = plt.figure(figsize=(5,5))
bad = plt.scatter(X.loc[:,'x1'][y==0],X.loc[:,'x2'][y==0])
good = plt.scatter(X.loc[:,'x1'][y==1],X.loc[:,'x2'][y==1])
plt.scatter(X.loc[:,'x1'][y==0][y_predict_bad==-1],X.loc[:,'x2'][y==0][y_predict_bad==-1],marker='x',s=150)
plt.legend((good,bad),('good','bad'))
plt.title('raw data')
plt.xlabel('x1')
plt.ylabel('x2')
plt.show()

加载数据并赋值

python 复制代码

data = pd.read_csv('data_class_processed.csv')
data.head()
#define X and y
X = data.drop(['y'],axis=1)
y = data.loc[:,'y']

PCA

python 复制代码

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
X_norm = StandardScaler().fit_transform(X)
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_norm)
var_ratio = pca.explained_variance_ratio_
print(var_ratio)
fig4 = plt.figure(figsize=(5,5))
plt.bar([1,2],var_ratio)
plt.show()

数据分离

python 复制代码

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=4,test_size=0.4)
print(X_train.shape,X_test.shape,X.shape)

KNN

模型训练计算分类准确率

python 复制代码

#knn model
from sklearn.neighbors import KNeighborsClassifier
knn_10 = KNeighborsClassifier(n_neighbors=10)
knn_10.fit(X_train,y_train)
y_train_predict = knn_10.predict(X_train)
y_test_predict = knn_10.predict(X_test)

#calculate the accuracy
from sklearn.metrics import accuracy_score
accuracy_train = accuracy_score(y_train,y_train_predict)
accuracy_test = accuracy_score(y_test,y_test_predict)
print("trianing accuracy:",accuracy_train)
print('testing accuracy:',accuracy_test)

可视化分类边界

python 复制代码

xx, yy = np.meshgrid(np.arange(0,10,0.05),np.arange(0,10,0.05))
x_range = np.c_[xx.ravel(),yy.ravel()]
y_range_predict = knn_10.predict(x_range)

fig4 = plt.figure(figsize=(10,10))
knn_bad = plt.scatter(x_range[:,0][y_range_predict==0],x_range[:,1][y_range_predict==0])
knn_good = plt.scatter(x_range[:,0][y_range_predict==1],x_range[:,1][y_range_predict==1])
bad = plt.scatter(X.loc[:,'x1'][y==0],X.loc[:,'x2'][y==0])
good = plt.scatter(X.loc[:,'x1'][y==1],X.loc[:,'x2'][y==1])
plt.legend((good,bad,knn_good,knn_bad),('good','bad','knn_good','knn_bad'))
plt.title('prediction result')
plt.xlabel('x1')
plt.ylabel('x2')
plt.show()

计算测试数据集对应的混淆矩阵，计算准确率、召回率、特异度、精确率、F1分数

python 复制代码

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test,y_test_predict)
print(cm)

赋值

python 复制代码

TP = cm[1,1]
TN = cm[0,0]
FP = cm[0,1]
FN = cm[1,0]
print(TP,TN,FP,FN)

准确率

python 复制代码

accuracy = (TP + TN)/(TP + TN + FP + FN)
print(accuracy)

召回率

python 复制代码

recall = TP/(TP + FN)
print(recall)

特异度

python 复制代码

specificity = TN/(TN + FP)
print(specificity)

精确率

python 复制代码

precision = TP/(TP + FP)
print(precision)

F1分数

python 复制代码

f1 = 2*precision*recall/(precision+recall)
print(f1)

尝试不同的n_neighbors(1-20)，计算其在训练数据集、测试数据集上的准确率并作图

python 复制代码

n = [i for i in range(1,21)]
accuracy_train = []
accuracy_test = []
for i in n:
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,y_train)
    y_train_predict = knn.predict(X_train)
    y_test_predict = knn.predict(X_test)
    accuracy_train_i = accuracy_score(y_train,y_train_predict)
    accuracy_test_i = accuracy_score(y_test,y_test_predict)
    accuracy_train.append(accuracy_train_i)
    accuracy_test.append(accuracy_test_i)
print(accuracy_train,accuracy_test)

可视化

python 复制代码

fig5 = plt.figure(figsize=(12,5))
plt.subplot(121)
plt.plot(n,accuracy_train,marker='o')
plt.title('training accuracy vs n_neighbors')
plt.xlabel('n_neighbors')
plt.ylabel('accuracy')
plt.subplot(122)
plt.plot(n,accuracy_test,marker='o')
plt.title('testing accuracy vs n_neighbors')
plt.xlabel('n_neighbors')
plt.ylabel('accuracy')

plt.show()