sklearn—roc_curve,roc_auc_score

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import roc_curve
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import roc_auc_score

# 加载数据
mnist = fetch_openml('mnist_784', version=1, parser='auto')
X, y = mnist['data'], mnist['target']
X = np.array(X)
y = np.array(y)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

# 打乱训练集
shuffle_index = np.random.permutation(60000)
X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]

# 创建二元标签
y_train_5 = (y_train == '5')
y_test_5 = (y_test == '5')

# 训练模型
clf = SGDClassifier(random_state=42)
clf.fit(X_train, y_train_5)

# 使用交叉验证预测获取决策分数
y_scores = cross_val_predict(clf, X_train, y_train_5, method="decision_function")

# 计算ROC曲线
fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

# 绘制ROC曲线
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(loc="lower right")
plt.show()

# 计算ROC曲线下面积auc
auc = roc_auc_score(y_train_5, y_scores)
print(auc)

1. 使用交叉验证预测获取决策分数

y_scores = cross_val_predict(clf, X_train, y_train_5, method="decision_function")

获取模型对每个样本的决策分数,这些分数随后被用于计算ROC曲线和AUC分数,以评估模型对于识别数字"5"的性能。

在分类任务中,很多模型不仅可以输出预测类别,还可以输出一个决策分数或概率估计,表示模型对每个类别的置信度。对于二分类问题,SGDClassifier 默认的决策函数返回的是样本属于正类的分数。通过指定 method="decision_function" ,cross_val_predict 将为每个输入样本返回这个决策分数,而非直接的分类预测(正类或负类)。

2. 计算ROC曲线

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

计算 ROC 曲线的各个点,并返回假正例率(False Positive Rate, FPR)、真正例率(True Positive Rate, TPR)以及用于生成这些率的决策阈值(Thresholds)。

3. 计算ROC曲线下面积auc

auc = roc_auc_score(y_train_5, y_scores)

4. thresholds、auc

阈值(Thresholds)

在分类任务中,模型通常输出一个连续的决策分数或概率估计来表示样本属于某个类别的置信度。通过设置不同的阈值,这些连续的分数会被转换为二元的分类结果(例如,正类或负类)。调整阈值会影响到模型的TPR和FPR,进而影响模型的性能表现。

曲线下面积(Area Under the Curve, AUC)

AUC是ROC曲线下的面积,提供了一个量化模型在所有可能的分类阈值下性能的方式。AUC的值介于0和1之间,一个完美的分类器的AUC为1,而一个完全随机的分类器的AUC为0.5。AUC越接近1,表示模型的性能越好。

5. 运行结果


相关推荐
Wnq100726 小时前
如何在移动 的巡检机器人上,实现管道跑冒滴漏的视觉识别
数码相机·opencv·机器学习·计算机视觉·目标跟踪·自动驾驶
zy_destiny7 小时前
【工业场景】用YOLOv8实现抽烟识别
人工智能·python·算法·yolo·机器学习·计算机视觉·目标跟踪
韩曙亮8 小时前
【自动驾驶】自动驾驶概述 ⑨ ( 自动驾驶软件系统概述 | 预测系统 | 决策规划 | 控制系统 )
人工智能·机器学习·自动驾驶·激光雷达·决策规划·控制系统·预测系统
信息快讯9 小时前
【机器学习赋能的智能光子学器件系统研究与应用】
人工智能·神经网络·机器学习·光学
程序员大雄学编程9 小时前
「机器学习笔记14」集成学习全面解析:从Bagging到Boosting的Python实战指南
笔记·机器学习·集成学习
汉堡go12 小时前
1、机器学习与深度学习
人工智能·深度学习·机器学习
jie*13 小时前
小杰深度学习(fourteen)——视觉-经典神经网络——ResNet
人工智能·python·深度学习·神经网络·机器学习·tensorflow·lstm
Piink14 小时前
网络模型训练完整代码
人工智能·深度学习·机器学习
搞科研的小刘选手16 小时前
【早稻田大学主办】2026年第三届人工智能与未来教育国际学术会议(AIFE 2026)
人工智能·机器学习·数据挖掘·机器人·未来教育·远程教育·移动学习
Best_Me0716 小时前
理解AUROC,AP,F1-scroe,PRO
人工智能·机器学习