机器学习指标解析:AUC与KS值

python 复制代码
import numpy as np
from sklearn.metrics import confusion_matrix

y_pred = [0, 1, 0, 1]  # 模型预测结果
y_true = [0, 1, 1, 0]  # 真实标签
print('混淆矩阵:\n', confusion_matrix(y_true, y_pred))

# 输出:
# [[1 1]
#  [1 1]]

## accuracy
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print('ACC:', accuracy_score(y_true, y_pred))  # 输出 ACC: 0.5

## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print('Precision', metrics.precision_score(y_true, y_pred))
print('Recall', metrics.recall_score(y_true, y_pred))
print('F1-score:', metrics.f1_score(y_true, y_pred))

# 输出:
# Precision 0.5
# Recall 0.5
# F1-score: 0.5

简单案例分析:

  • 真实标签 y_true = [0, 1, 1, 0]:我们把 0 看作 "狗(负类)",1 看作 "猫(正类)",所以真实样本是:[狗, 猫, 猫, 狗]
  • 预测结果 y_pred = [0, 1, 0, 1]:模型的判断是:[狗, 猫, 狗, 猫]

AUC 计算代码:

python 复制代码
import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([0, 0, 1, 1])  # 真实标签
y_scores = np.array([0.1, 0.4, 0.35, 0.8])  # 模型预测的置信度分数
print('AUC socre:', roc_auc_score(y_true, y_scores))
# 输出:AUC socre: 0.75
  • y_true = [0, 0, 1, 1]:真实标签,我们把 0 看作狗(负类)1 看作猫(正类)。所以这里有 2 只狗、2 只猫。
  • y_scores = [0.1, 0.4, 0.35, 0.8]:模型给每张图打的 "是猫的置信度",分数越高,模型越认为它是猫。

AUC 的全称是ROC 曲线下的面积,它的本质含义是:

随机抽一只猫和一只狗,模型给猫打的置信度分数,比给狗打的分数高的概率。

用这个例子验证一下:

  • 所有「猫 vs 狗」的组合有 2×2=4 种:
    1. 猫 (0.8) vs 狗 (0.4):猫分数更高 ✅
    2. 猫 (0.8) vs 狗 (0.1):猫分数更高 ✅
    3. 猫 (0.35) vs 狗 (0.4):猫分数更低 ❌
    4. 猫 (0.35) vs 狗 (0.1):猫分数更高 ✅
  • 猫分数更高的情况有 3 种,所以 AUC = 3/4 = 0.75

怎么理解 AUC 数值?

  • AUC 越接近 1,说明模型越能把猫和狗区分开(几乎所有猫的分数都比狗高)。
  • AUC=0.5 时,模型和 "瞎猜" 没区别,猫和狗的分数是随机的。
  • AUC<0.5 时,模型反而把猫和狗搞反了,相当于 "反向预测"

二、第二部分:KS 值 计算代码

python 复制代码
from sklearn.metrics import roc_curve

y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 1, 1]

# 计算ROC曲线的FPR和TPR
FPR, TPR, thresholds = roc_curve(y_true, y_pred)

# 计算KS值:FPR和TPR之间的最大差值
KS = abs(FPR - TPR).max()
print('KS值: ', KS)
# 输出:KS值: 0.5238095238095237
  • TPR(真正例率):所有猫里,被模型找出来的比例(召回率)
  • FPR(假正例率):所有狗里,被误判成猫的比例

roc_curve 函数会帮我们计算不同阈值下的 FPRTPR,得到一组数据点。

2. KS 值 到底算的是什么?

KS 值的全称是Kolmogorov-Smirnov 值,它的定义是:

在所有可能的阈值下,TPR 和 FPR 之间的最大差值。

  • 我们希望模型找猫的能力(TPR)尽量高,误判狗的概率(FPR)尽量低。
  • 两者的差值 TPR - FPR 越大,说明模型区分猫和狗的能力越强。
  • KS 值就是这个差值的最大值,代表模型区分正负样本的 "最强区分度"。
相关推荐
千江明月2 小时前
Ollama安装的详细步骤以及Python调用Qwen
开发语言·python·ollama·qwen模型
是大强2 小时前
TensorFlow Lite
人工智能·python·tensorflow
Wenzar_2 小时前
# 发散创新:SwiftUI 中状态管理的深度实践与重构艺术 在 SwiftUI 的世界里,**状态驱动 UI 是核心哲学**。但随
java·python·ui·重构·swiftui
\xin2 小时前
Pikachu的python一键exp,xx型注入,“insert/updata“注入,“delete“注入,“http header“注入
数据库·python·http
Ulyanov2 小时前
《PySide6 GUI开发指南:QML核心与实践》 第五篇:Python与QML深度融合——数据绑定与交互
开发语言·python·qt·ui·交互·雷达电子战系统仿真
北冥有羽Victoria2 小时前
Django Auth组件完整版教程:从原理到项目落地
大数据·服务器·数据库·后端·python·django·sqlite
斯维赤2 小时前
Python学习超简单第八弹:网络编程
网络·python·学习
wengqidaifeng3 小时前
C++从菜鸟到强手:1.基础入门
开发语言·c++
我喜欢山,也喜欢海3 小时前
Java和go在并发上的表现为什么不一样
java·python·golang