【基础复习1】ROC 与 AUC:逻辑回归二分类例子

ROC 曲线与AUC值

引入

用在什么场景?

主要在二分类模型中用来划分阈值,用于效果评估与比较

ROC曲线横轴(真正):召回率:TPR = TP / (TP + FN) 所有真实类别为1的样本中,预测类别为1的⽐例

ROC曲线纵轴(加正):FPR = FP / (FP + TN) 所有真实类别为0的样本中,预测类别为1的⽐例

TPR 就是召回率

FPR 有些地方也叫做假正例率/需警率

当横轴纵轴⼆者相等时,表示的意义则是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5

为什么需要这两个值?

很多时候召回率是收益,而FPR为成本

ROC 曲线

ROC 曲线是真正率和假正率在不同的阈值下之间的图形表示关系。通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。

ROC计算api

python 复制代码
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
# 1. 计算ROC曲线的关键参数
sklearn.metrics.roc_curve(y_true, y_score, pos_label=1)
y_true:必选,样本的真实类别标签,需为 0(负例)和 1(正例)的二元标记。
y_score:必选,模型对每个样本的预测得分,可为正类的估计概率、置信值或分类器输出的原始分数。
pos_label:可选,指定 "正例" 对应的标签,默认值为 1,需与`y_true`中的正例标签一致。

AUC 值

AUC(areaunderthecurve)是 ROC 曲线下的面积,表示预测的正例排在负例前面的概率。

直接使用ROC曲线下的面积,面积越大,就代表ROC曲线越拱,即AUC是评估ROC曲线拱度的指标。

AUC的计算api

python 复制代码
from sklearn.metrics import roc_auc_score
	sklearn.metrics.roc_auc_score(y_true, y_score)
		计算ROC曲线⾯积,即AUC值
		y_true:每个样本的真实类别,必须为0(反例),1(正例)标记
		y_score:预测得分,可以是正类的估计概率、置信值或者分类器⽅法的返回值

代码实践练习

数据生成

python 复制代码
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

n_samples=1000:生成 1000 个样本(即 1000 条数据)。

n_features=20:每个样本包含 20 个特征(即 20 个输入变量)。

n_classes=2:生成的是 二分类任务(标签只有 2 种,通常是 0 和 1)。

random_state=42:随机种子固定为 42,确保每次运行代码生成的数据集完全相同(便于结果复现)。

关键部分(生成曲线)

python 复制代码
# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)

fpr:不同阈值下,负例被误判为正例的比例(横轴)。

tpr:不同阈值下,正例被正确识别的比例(纵轴)。

thresholds:划分正/负例的临界值,每个值对应一组 fpr 和 tpr。

代码

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
 
# 生成一些示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)
 
# 获取测试集上的预测概率
y_probs = model.predict_proba(X_test)[:, 1]
 
# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)
 
# 生成折线图
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC曲线 (AUC = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('假正例率')
plt.ylabel('真正例率')
plt.title('ROC曲线')
plt.grid(True)  # 添加网格线
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.show()

结果

运行 python ROC.py

相关推荐
无忧智库1 分钟前
跨行业数据要素可信流通体系建设:打破信任壁垒的完整工程方法论(WORD)
大数据·人工智能
mit6.8242 分钟前
NitroGen: AI 自动玩游戏
人工智能
小王毕业啦3 分钟前
2007-2024年 省级-农林牧渔总产值、农业总产值数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
数据皮皮侠6 分钟前
上市公司创新韧性数据(2000-2024)|顶刊同款 EIR 指数
大数据·人工智能·算法·智慧城市·制造
科研前沿17 分钟前
纯视觉无感解算 + 动态数字孪生:室内外无感定位技术全新升级
大数据·人工智能·算法·重构·空间计算
暗夜猎手-大魔王18 分钟前
转载--AI Agent 架构设计:错误处理与容错设计(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能
Aurorar0rua22 分钟前
CS50 x 2024 Notes C - 07
c语言·学习方法
码农的神经元23 分钟前
Claude Code 如何接入 DeepSeek V4 模型:从安装配置到实战验证
人工智能
Mr数据杨31 分钟前
房屋售价预测在房地产估价与风控中的应用
机器学习·数据分析·kaggle
波动几何32 分钟前
通用行业业务技能体系技能universal-business-skill-system
人工智能