【基础复习1】ROC 与 AUC：逻辑回归二分类例子

ROC 曲线与AUC值

引入

用在什么场景？

主要在二分类模型中用来划分阈值，用于效果评估与比较

ROC曲线横轴（真正）：召回率：TPR = TP / (TP + FN) 所有真实类别为1的样本中，预测类别为1的⽐例

ROC曲线纵轴（加正）：FPR = FP / (FP + TN) 所有真实类别为0的样本中，预测类别为1的⽐例

TPR 就是召回率

FPR 有些地方也叫做假正例率/需警率

当横轴纵轴⼆者相等时，表示的意义则是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5

为什么需要这两个值？

很多时候召回率是收益，而FPR为成本

ROC 曲线

ROC 曲线是真正率和假正率在不同的阈值下之间的图形表示关系。通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。

ROC计算api

python 复制代码

from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
# 1. 计算ROC曲线的关键参数
sklearn.metrics.roc_curve(y_true, y_score, pos_label=1)
y_true：必选，样本的真实类别标签，需为 0（负例）和 1（正例）的二元标记。
y_score：必选，模型对每个样本的预测得分，可为正类的估计概率、置信值或分类器输出的原始分数。
pos_label：可选，指定 "正例" 对应的标签，默认值为 1，需与`y_true`中的正例标签一致。

AUC 值

AUC（areaunderthecurve）是 ROC 曲线下的面积，表示预测的正例排在负例前面的概率。

直接使用ROC曲线下的面积，面积越大，就代表ROC曲线越拱，即AUC是评估ROC曲线拱度的指标。

AUC的计算api

python 复制代码

from sklearn.metrics import roc_auc_score
	sklearn.metrics.roc_auc_score(y_true, y_score)
		计算ROC曲线⾯积，即AUC值
		y_true：每个样本的真实类别，必须为0(反例),1(正例)标记
		y_score：预测得分，可以是正类的估计概率、置信值或者分类器⽅法的返回值

代码实践练习

数据生成

python 复制代码

X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

n_samples=1000：生成 1000 个样本（即 1000 条数据）。

n_features=20：每个样本包含 20 个特征（即 20 个输入变量）。

n_classes=2：生成的是二分类任务（标签只有 2 种，通常是 0 和 1）。

random_state=42：随机种子固定为 42，确保每次运行代码生成的数据集完全相同（便于结果复现）。

关键部分（生成曲线）

python 复制代码

# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)

fpr：不同阈值下，负例被误判为正例的比例（横轴）。

tpr：不同阈值下，正例被正确识别的比例（纵轴）。

thresholds：划分正/负例的临界值，每个值对应一组 fpr 和 tpr。

代码

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
 
# 生成一些示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)
 
# 获取测试集上的预测概率
y_probs = model.predict_proba(X_test)[:, 1]
 
# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)
 
# 生成折线图
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC曲线 (AUC = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('假正例率')
plt.ylabel('真正例率')
plt.title('ROC曲线')
plt.grid(True)  # 添加网格线
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.show()

结果

运行 python ROC.py