机器学习评价指标之决策曲线

决策曲线是一种用于评估和比较不同分类模型性能的工具,它可以帮助研究人员和数据分析者理解模型在不同阈值设置下的收益和风险。以下是一些关于分类模型决策曲线的详细信息:

决策曲线的构成:

  1. 阈值(Threshold):分类模型通常会输出一个概率分数,表示样本属于正类的概率。阈值是用于将概率转换为类别标签的界限。例如,如果阈值设定为0.5,那么概率大于或等于0.5的样本将被分类为正类。

  2. 真正率(True Positive Rate, TPR):也称为灵敏度或召回率,表示所有正类样本中被正确分类为正类的比例。

  3. 假正率(False Positive Rate, FPR):表示所有负类样本中被错误分类为正类的比例。

  4. 净收益(Net Benefit):是真正率与假正率的差值,或者说是分类器在特定阈值下的性能度量。

决策曲线的类型:

  1. 受试者工作特征曲线(Receiver Operating Characteristic, ROC):ROC曲线展示了不同阈值下真正率和假正率的关系。

  2. 提升曲线(Lift Curve):展示了模型相对于随机猜测的绩效提升。

  3. 净收益曲线(Net Benefit Curve):直接展示了不同阈值下的净收益。

如何创建决策曲线:

  1. 计算概率:使用分类模型为每个样本计算属于正类的概率。

  2. 设置阈值:选择一系列阈值(例如,从0到1,以0.01为步长)。

  3. 计算TPR和FPR:对于每个阈值,计算TPR和FPR。

  4. 绘制曲线:在坐标系中,以FPR为横轴,TPR为纵轴,绘制ROC曲线。对于净收益曲线,以阈值为横轴,净收益为纵轴。

决策曲线的应用:

  • 模型比较:通过比较不同模型的决策曲线,可以选择性能最佳的模型。
  • 阈值选择:可以帮助确定最佳的分类阈值,以最大化模型的净收益。
  • 临床决策支持:在医疗领域,决策曲线可以帮助医生理解不同诊断测试的收益和风险。

注意事项:

  • 决策曲线应结合具体的应用背景和业务目标来解释。
  • 在不平衡数据集的情况下,决策曲线的解读需要特别小心,因为假正率和真正率的计算可能会受到少数类的影响。

通过决策曲线,可以更全面地评估分类模型在实际应用中的表现,并作出更合理的决策。

代码实现:

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc, roc_auc_score

# 创建一个分类数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# 训练随机森林分类器
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# 预测测试集的概率
y_score = clf.predict_proba(X_test)[:, 1]

# 计算ROC曲线的FPR和TPR
fpr, tpr, thresholds = roc_curve(y_test, y_score)
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")

# 绘制净收益曲线
# 计算净收益
net_benefit = tpr - fpr
# 找到最大的净收益和对应的阈值
max_net_benefit = np.max(net_benefit)
best_threshold = thresholds[np.argmax(net_benefit)]

plt.subplot(1, 2, 2)
plt.plot(thresholds, net_benefit, color='blue', lw=2, label='Net Benefit')
plt.axhline(0, color='black', lw=2, linestyle='--')
plt.axvline(best_threshold, color='red', linestyle='--', label='Best Threshold')
plt.xlabel('Threshold')
plt.ylabel('Net Benefit')
plt.title('Net Benefit Curve')
plt.legend(loc="lower right")

plt.tight_layout()
plt.show()

在这段代码中,我们首先创建了一个合成数据集,然后使用随机森林分类器进行训练。接着,我们使用测试集来计算分类概率,并使用这些概率来绘制ROC曲线和净收益曲线。

  • ROC曲线显示了不同阈值下模型的性能。
  • 净收益曲线则直接展示了不同阈值下的净收益,帮助确定最佳阈值。

通过这种方式,你可以直观地比较不同模型或同一模型在不同阈值下的表现。

相关推荐
全糖可乐气泡水34 分钟前
Codex适配国产信创环境安装部署与技术适配全解析
开发语言·git·python·算法·百度
贵慜_Derek37 分钟前
《从零实现 Agent 系统》连载 07|记忆系统:短期上下文 vs 长期外部记忆
人工智能·设计模式·架构
星辰AI39 分钟前
LLM 安全与对齐技术:构建可信赖的人工智能
人工智能·ai·语言模型
圣殿骑士-Khtangc42 分钟前
CloakBrowser 深度解析:C++ 源码级反检测浏览器,Playwright 的终极替代品
人工智能
h_a_o777oah1 小时前
状态机+划分型 DP :深度解析K-划分问题下 DP 状态的转移逻辑(洛谷P2679 P2331 附C++代码)
c++·算法·动态规划·acm·状态机dp·划分型dp·滚动数组优化
05候补工程师1 小时前
从算法理想向工程现实的跨越:SLAM 核心架构、思维误区与 Nav2 实战避坑指南
人工智能·算法·安全·架构·机器人
threelab1 小时前
Three.js 加载 3D Tiles 瓦片数据 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
韦胖漫谈IT1 小时前
不当输出处理 - 大语言模型 OWASP TOP 10系列
人工智能·语言模型·自然语言处理
JavaAgent架构师1 小时前
前端AI工程化(九):AI Agent平台前端架构设计
前端·人工智能
阿里云大数据AI技术1 小时前
DataWorks Data Agent:助力淘宝闪购一句话搞定数据开发,让周期从天级到分钟级
人工智能·agent