【基础复习1】ROC 与 AUC:逻辑回归二分类例子

ROC 曲线与AUC值

引入

用在什么场景?

主要在二分类模型中用来划分阈值,用于效果评估与比较

ROC曲线横轴(真正):召回率:TPR = TP / (TP + FN) 所有真实类别为1的样本中,预测类别为1的⽐例

ROC曲线纵轴(加正):FPR = FP / (FP + TN) 所有真实类别为0的样本中,预测类别为1的⽐例

TPR 就是召回率

FPR 有些地方也叫做假正例率/需警率

当横轴纵轴⼆者相等时,表示的意义则是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5

为什么需要这两个值?

很多时候召回率是收益,而FPR为成本

ROC 曲线

ROC 曲线是真正率和假正率在不同的阈值下之间的图形表示关系。通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。

ROC计算api

python 复制代码
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
# 1. 计算ROC曲线的关键参数
sklearn.metrics.roc_curve(y_true, y_score, pos_label=1)
y_true:必选,样本的真实类别标签,需为 0(负例)和 1(正例)的二元标记。
y_score:必选,模型对每个样本的预测得分,可为正类的估计概率、置信值或分类器输出的原始分数。
pos_label:可选,指定 "正例" 对应的标签,默认值为 1,需与`y_true`中的正例标签一致。

AUC 值

AUC(areaunderthecurve)是 ROC 曲线下的面积,表示预测的正例排在负例前面的概率。

直接使用ROC曲线下的面积,面积越大,就代表ROC曲线越拱,即AUC是评估ROC曲线拱度的指标。

AUC的计算api

python 复制代码
from sklearn.metrics import roc_auc_score
	sklearn.metrics.roc_auc_score(y_true, y_score)
		计算ROC曲线⾯积,即AUC值
		y_true:每个样本的真实类别,必须为0(反例),1(正例)标记
		y_score:预测得分,可以是正类的估计概率、置信值或者分类器⽅法的返回值

代码实践练习

数据生成

python 复制代码
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

n_samples=1000:生成 1000 个样本(即 1000 条数据)。

n_features=20:每个样本包含 20 个特征(即 20 个输入变量)。

n_classes=2:生成的是 二分类任务(标签只有 2 种,通常是 0 和 1)。

random_state=42:随机种子固定为 42,确保每次运行代码生成的数据集完全相同(便于结果复现)。

关键部分(生成曲线)

python 复制代码
# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)

fpr:不同阈值下,负例被误判为正例的比例(横轴)。

tpr:不同阈值下,正例被正确识别的比例(纵轴)。

thresholds:划分正/负例的临界值,每个值对应一组 fpr 和 tpr。

代码

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
 
# 生成一些示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)
 
# 获取测试集上的预测概率
y_probs = model.predict_proba(X_test)[:, 1]
 
# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_probs)
roc_auc = auc(fpr, tpr)
 
# 生成折线图
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC曲线 (AUC = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('假正例率')
plt.ylabel('真正例率')
plt.title('ROC曲线')
plt.grid(True)  # 添加网格线
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.show()

结果

运行 python ROC.py

相关推荐
Raink老师4 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1234 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师4 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学4 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak4 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen4 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师4 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史5 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间5 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间5 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板