模型的评估指标是衡量一个模型应用于对应任务的契合程度,常见的指标有:
-
准确率(Accuracy): 正确预测的样本数占总样本数的比例。适用于类别分布均衡的数据集。
-
精确率(Precision): 在所有被预测为正类的样本中,实际为正类的比例。高精确率意味着较少的假正例。
-
召回率(Recall): 在所有实际为正类的样本中,被正确预测为正类的比例。高召回率意味着较少的假负例。
-
F1分数(F1 Score): 精确率和召回率的调和平均,是两者之间的平衡指标。F1分数在类别不平衡时特别有用。
-
AUC-ROC曲线下面积(AUC): ROC曲线下的面积,衡量模型对正负样本的区分能力。AUC值越高,模型性能越好。
-
平均精度(Average Precision): 每个类别的精确率的平均值,特别用于多标签分类问题。
-
平均召回率(Average Recall): 每个类别的召回率的平均值,同样适用于多标签分类。
-
混淆矩阵(Confusion Matrix): 一个表格,显示了实际类别与预测类别之间的关系,可以用来计算上述指标。
-
平均F1分数(Average F1 Score): 对每个类别计算F1分数后取平均值。
-
马修距离(Mean Absolute Error, MAE): 预测值与真实值之间差的绝对值的平均。
-
均方误差(Mean Square Error, MSE): 预测值与真实值之间差的平方的平均值。
-
均方根误差(Root Mean Square Error, RMSE): MSE的平方根,提供了误差的尺度化度量。
-
对数平均绝对误差(Mean Absolute Percentage Error, MAPE): 预测值与真实值之间差的绝对值的百分比的平均值。
-
洛斯损失(Log Loss): 常用于逻辑回归模型,衡量预测概率与实际标签之间的差异。
-
杰卡指数(Jaccard Index): 1减去预测类别与真实类别的交集与并集的比例,用于衡量两个集合的相似度。
结合场景来看待这些指标:
-
分类问题(Classification):
- 类别不平衡(Class Imbalance): 在这种情况下,召回率(Recall)和F1分数(F1 Score)通常比准确率(Accuracy)更能反映模型性能,因为准确率可能会因为多数类而产生误导。
- 多类别分类(Multi-class Classification): 精确率(Precision)、召回率(Recall)和F1分数(F1 Score)可以为每个类别单独计算,然后平均得到宏平均(Macro-average)或微平均(Micro-average)指标。
-
回归问题(Regression):
- 均方误差(Mean Squared Error, MSE)和均方根误差(Root Mean Squared Error, RMSE)是衡量预测值与实际值之间差异的常用指标。
- 平均绝对误差(Mean Absolute Error, MAE)提供了预测误差的平均绝对值,对异常值不敏感。
-
异常检测:
- 查准率(Precision)和召回率(Recall)在这里同样重要,尤其是在异常类别较少的情况下。
-
排名问题:
- 平均精度(Mean Average Precision, MAP)是一个关键指标,它衡量的是模型在整个排名列表中保持高精确度的能力。
-
多标签分类:
- 每个标签的精确率和召回率可以单独计算,然后根据标签的分布进行加权平均。
-
多输出问题:
- 对于每个输出变量,可以单独计算MSE、RMSE或准确率等指标。
1 . 准确率
即希望11(模型正确预测正例)、10(模型正确预测负例)的占比更高
基本原理
准确率是将预测正确的样本数量与总样本数量之比,它衡量的是模型在整个数据集上的表现。然而,当数据集不平衡(即某一类样本数量明显多于其他类别)时,准确率可能不是一个很好的评估指标,因为即使模型预测所有样本都属于多数类别,也能获得相对较高的准确率。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import accuracy_score, confusion_matrix`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算准确率`
`accuracy = accuracy_score(y_test, y_pred)`
`print("Accuracy:", accuracy)`
`# 绘制混淆矩阵`
`conf_matrix = confusion_matrix(y_test, y_pred)`
`print("Confusion Matrix:")`
`print(conf_matrix)`
`# 绘制评估指标`
`plt.imshow(conf_matrix, cmap='binary', interpolation='None')`
`plt.colorbar()`
`plt.xticks([0,` `1])`
`plt.yticks([0,` `1])`
`plt.xlabel('Predicted Label')`
`plt.ylabel('True Label')`
`plt.title('Confusion Matrix')`
`plt.show()`
`
2 . 精确率
基本原理
精确率的核心思想是衡量模型在所有预测为正类别的样本中,真正为正类别的样本所占的比例。这个指标对于那些需要准确识别正例的任务尤为重要,比如医学诊断中的疾病检测。高精确率表示模型在识别正例方面有很好的表现。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import precision_score, confusion_matrix`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算精确率`
`precision = precision_score(y_test, y_pred)`
`print("Precision:", precision)`
`# 绘制混淆矩阵`
`conf_matrix = confusion_matrix(y_test, y_pred)`
`print("Confusion Matrix:")`
`print(conf_matrix)`
`# 绘制评估指标`
`plt.imshow(conf_matrix, cmap='binary', interpolation='None')`
`plt.colorbar()`
`plt.xticks([0,` `1])`
`plt.yticks([0,` `1])`
`plt.xlabel('Predicted Label')`
`plt.ylabel('True Label')`
`plt.title('Confusion Matrix')`
`plt.show()`
`
3 . 召回率
基本原理
召回率的核心思想是衡量模型在识别正例方面的表现。它强调了模型对于实际为正类别的样本的识别能力,对于那些需要尽量避免漏诊的任务,比如疾病检测,召回率是一个非常重要的评估指标。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import recall_score, confusion_matrix`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算召回率`
`recall = recall_score(y_test, y_pred)`
`print("Recall:", recall)`
`# 绘制混淆矩阵`
`conf_matrix = confusion_matrix(y_test, y_pred)`
`print("Confusion Matrix:")`
`print(conf_matrix)`
`# 绘制评估指标`
`plt.imshow(conf_matrix, cmap='binary', interpolation='None')`
`plt.colorbar()`
`plt.xticks([0,` `1])`
`plt.yticks([0,` `1])`
`plt.xlabel('Predicted Label')`
`plt.ylabel('True Label')`
`plt.title('Confusion Matrix')`
`plt.show()`
`
4 . F1分数
基本原理
F1分数综合考虑了模型的精确率和召回率,因此可以在一定程度上弥补精确率和召回率单独使用时的不足。F1分数越高,表示模型在识别和预测正类别方面的综合表现越好。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import f1_score, confusion_matrix`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算F1分数`
`f1 = f1_score(y_test, y_pred)`
`print("F1 Score:", f1)`
`# 绘制混淆矩阵`
`conf_matrix = confusion_matrix(y_test, y_pred)`
`print("Confusion Matrix:")`
`print(conf_matrix)`
`# 绘制评估指标`
`plt.imshow(conf_matrix, cmap='binary', interpolation='None')`
`plt.colorbar()`
`plt.xticks([0,` `1])`
`plt.yticks([0,` `1])`
`plt.xlabel('Predicted Label')`
`plt.ylabel('True Label')`
`plt.title('Confusion Matrix')`
`plt.show()`
`
5 . ROC曲线和AUC
基本原理
ROC曲线基于真正例率和假正例率,它展示了在不同分类阈值下,模型在识别正例和负例方面的性能。ROC曲线上的点越靠近左上角,表示模型性能越好。AUC是ROC曲线下的面积,它等于ROC曲线与横轴之间的面积,可以用来比较不同模型的性能,AUC越大表示模型性能越好。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import roc_curve, auc`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred_proba = model.predict_proba(X_test)[:,` `1]`
`# 计算ROC曲线和AUC`
`fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)`
`roc_auc = auc(fpr, tpr)`
`print("AUC:", roc_auc)`
`# 绘制ROC曲线`
`plt.figure()`
`plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)'` `% roc_auc)`
`plt.plot([0,` `1],` `[0,` `1], color='navy', lw=2, linestyle='--')`
`plt.xlim([0.0,` `1.0])`
`plt.ylim([0.0,` `1.05])`
`plt.xlabel('False Positive Rate')`
`plt.ylabel('True Positive Rate')`
`plt.title('Receiver Operating Characteristic Curve')`
`plt.legend(loc="lower right")`
`plt.show()`
`
6 . 混淆矩阵
基本原理
混淆矩阵用于描述模型在不同类别上的预测结果,帮助评估模型的分类准确性和错误情况。通过混淆矩阵,可以计算出模型的精确率、召回率、F1分数等评估指标,从而更全面地评估模型的性能。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import confusion_matrix`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算混淆矩阵`
`conf_matrix = confusion_matrix(y_test, y_pred)`
`print("Confusion Matrix:")`
`print(conf_matrix)`
`# 绘制混淆矩阵`
`plt.imshow(conf_matrix, cmap='binary', interpolation='None')`
`plt.colorbar()`
`plt.xticks([0,` `1])`
`plt.yticks([0,` `1])`
`plt.xlabel('Predicted Label')`
`plt.ylabel('True Label')`
`plt.title('Confusion Matrix')`
`plt.show()`
`
7 . 均方误差
基本原理
均方误差衡量了模型的预测值与真实值之间的平均偏差的平方。当模型的预测值与真实值之间的偏差较大时,MSE会增大;而当偏差较小时,MSE会减小。因此,MSE越小表示模型对数据的拟合程度越好。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_regression`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LinearRegression`
`from sklearn.metrics import mean_squared_error`
`# 生成模拟数据集`
`X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练线性回归模型`
`model = LinearRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算均方误差`
`mse = mean_squared_error(y_test, y_pred)`
`print("Mean Squared Error:", mse)`
`# 绘制评估指标`
`plt.scatter(X_test, y_test, color='black', label='Actual')`
`plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')`
`plt.title('Actual vs Predicted')`
`plt.xlabel('X')`
`plt.ylabel('y')`
`plt.legend()`
`plt.show()`
`
8 . 平均绝对误差
基本原理
平均绝对误差衡量了模型的预测值与真实值之间的平均绝对偏差。当模型的预测值与真实值之间的偏差较大时,MAE会增大;而当偏差较小时,MAE会减小。因此,MAE越小表示模型对数据的拟合程度越好。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_regression`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LinearRegression`
`from sklearn.metrics import mean_absolute_error`
`# 生成模拟数据集`
`X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练线性回归模型`
`model = LinearRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算平均绝对误差`
`mae = mean_absolute_error(y_test, y_pred)`
`print("Mean Absolute Error:", mae)`
`# 绘制评估指标`
`plt.scatter(X_test, y_test, color='black', label='Actual')`
`plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')`
`plt.title('Actual vs Predicted')`
`plt.xlabel('X')`
`plt.ylabel('y')`
`plt.legend()`
`plt.show()`
`
9 . 对数损失
基本原理
对数损失衡量了模型的预测概率分布与真实标签之间的差异。当模型的预测概率分布与真实标签完全一致时,对数损失为0;当二者差异较大时,对数损失增大。因此,对数损失越小表示模型性能越好。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_classification`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LogisticRegression`
`from sklearn.metrics import log_loss`
`# 生成模拟数据集`
`X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练逻辑回归模型`
`model = LogisticRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred_proba = model.predict_proba(X_test)`
`# 计算对数损失`
`logloss = log_loss(y_test, y_pred_proba)`
`print("Log Loss:", logloss)`
`# 绘制评估指标`
`thresholds = np.linspace(0.01,` `0.99,` `100)`
`logloss_values =` `[]`
`for threshold in thresholds:`
` y_pred_threshold =` `(y_pred_proba[:,` `1]` `> threshold).astype(int)`
` logloss_values.append(log_loss(y_test, y_pred_threshold))`
`plt.plot(thresholds, logloss_values)`
`plt.xlabel('Threshold')`
`plt.ylabel('Log Loss')`
`plt.title('Log Loss vs Threshold')`
`plt.show()`
`
1 0 . R平方
基本原理
R平方衡量了模型对数据的拟合程度,其取值范围在0到1之间。当模型对数据的拟合程度越好时,R平方越接近1;当模型对数据的拟合程度较差时,R平方越接近0。当模型的拟合程度与随机平均水平相当时,R平方可能为负。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import make_regression`
`from sklearn.model_selection import train_test_split`
`from sklearn.linear_model import LinearRegression`
`from sklearn.metrics import r2_score`
`# 生成模拟数据集`
`X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)`
`# 划分训练集和测试集`
`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`
`# 训练线性回归模型`
`model = LinearRegression()`
`model.fit(X_train, y_train)`
`# 在测试集上做预测`
`y_pred = model.predict(X_test)`
`# 计算R平方`
`r2 = r2_score(y_test, y_pred)`
`print("R-squared:", r2)`
`# 绘制评估指标`
`plt.scatter(X_test, y_test, color='black', label='Actual')`
`plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')`
`plt.title('Actual vs Predicted')`
`plt.xlabel('X')`
`plt.ylabel('y')`
`plt.legend()`
`plt.show()`
`
1 1 . 交叉验证分数
基本原理
交叉验证分数的原理是通过多次训练和测试模型,利用每次测试集上的性能指标来评估模型的泛化能力。通过多次重复这个过程并计算平均值,可以得到更可靠的性能评估结果。
核心点
代码例子
import numpy as np`
`import matplotlib.pyplot as plt`
`from sklearn.datasets import load_iris`
`from sklearn.model_selection import cross_val_score`
`from sklearn.linear_model import LogisticRegression`
`# 加载数据集`
`iris = load_iris()`
`X, y = iris.data, iris.target`
`# 初始化逻辑回归模型`
`model = LogisticRegression()`
`# 计算交叉验证分数`
`cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')`
`# 打印交叉验证分数`
`print("Cross-Validation Scores:", cv_scores)`
`print("Mean Cross-Validation Score:", np.mean(cv_scores))`
`# 绘制评估指标`
`plt.plot(range(1,` `6), cv_scores, marker='o')`
`plt.xlabel('Fold')`
`plt.ylabel('Accuracy')`
`plt.title('Cross-Validation Scores')`
`plt.show()`
`