sklearn基础--『分类模型评估』之系数分析

前面两篇介绍了分类模型 评估的两类方法,准确率分析损失分析

本篇介绍的杰卡德相似系数马修斯相关系数 为我们提供了不同的角度来观察模型的性能,

尤其在不平衡数据场景中,它们更能体现出其独特的价值。

接下来,让我们一起了解这两个评估指标的原理与特点。

1. 杰卡德相似系数

杰卡德相似系数Jaccard similarity coefficient)用于衡量两个集合的相似度。

在分类模型中,通常将每个类别看作一个集合,然后计算模型预测结果与实际结果之间的杰卡德相似系数。

杰卡德相似系数 能够直观地反映模型预测的准确性,并且对于不平衡数据集具有一定的鲁棒性。

它特别适用于二元分类问题,但也可以扩展到多类分类问题中。

1.1. 计算公式

<math xmlns="http://www.w3.org/1998/Math/MathML"> J ( y , y ^ ) = ∣ y ∩ y ^ ∣ ∣ y ∪ y ^ ∣ J(y, \hat{y}) = \frac{|y \cap \hat{y}|}{|y \cup \hat{y}|} </math>J(y,y^)=∣y∪y^∣∣y∩y^∣

其中, <math xmlns="http://www.w3.org/1998/Math/MathML"> y y </math>y是真实值, <math xmlns="http://www.w3.org/1998/Math/MathML"> y ^ \hat y </math>y^是预测值。

1.2. 使用示例

python 复制代码
import numpy as np
from sklearn.metrics import jaccard_score

n = 100
k = 2
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s = jaccard_score(y_true, y_pred)
print("jaccard score:{}".format(s))

# 运行结果:
jaccard score:0.36585365853658536

上面的示例中,是针对二分类数据(k=2)来计算杰卡德相似系数的。

如果是多分类的数据,需要设置jaccard_scoreaverage参数,否则会报错。
average参数主要有以下选项:

  • binary :仅当目标 是二分类时才适用
  • micro :通过计算总的真阳性假阴性假阳性来计算全局指标
  • macro :计算每个标签的指标,并找到它们的未加权平均值
  • weighted:计算每个标签的指标,并找到其平均值,并按支持度(每个标签的真实实例数)加权
  • samples:计算每个实例的指标,并找到它们的平均值(仅对多标签分类有意义)
python 复制代码
import numpy as np
from sklearn.metrics import jaccard_score

n = 100
k = 5
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s1 = jaccard_score(y_true, y_pred, average="micro")
s2 = jaccard_score(y_true, y_pred, average="macro")
s3 = jaccard_score(y_true, y_pred, average="weighted")
print("jaccard score:\nmicro:{}\nmacro:{}\nweighted:{}".format(s1, s2, s3))

# 运行结果:
jaccard score:
micro:0.0989010989010989
macro:0.09772727272727273
weighted:0.09639935064935062

上面的示例是多分类的情况,不设置 average参数的话,会报错。

2. 马修斯相关系数

马修斯相关系数Matthews correlation coefficient)是一种用于衡量二分类模型性能的指标,

它考虑了真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)四个方面的信息。

马修斯相关系数 对于不平衡数据集具有较好的适应性,并且能够综合考虑模型的真正例率和真负例率。

与准确率、召回率等指标相比,马修斯相关系数在处理不平衡数据集时更为可靠。

2.1. 计算公式

<math xmlns="http://www.w3.org/1998/Math/MathML"> M C C = t p × t n − f p × f n ( t p + f p ) ( t p + f n ) ( t n + f p ) ( t n + f n ) MCC = \frac{tp \times tn - fp \times fn}{\sqrt{(tp + fp)(tp + fn)(tn + fp)(tn + fn)}} </math>MCC=(tp+fp)(tp+fn)(tn+fp)(tn+fn) tp×tn−fp×fn

关于 <math xmlns="http://www.w3.org/1998/Math/MathML"> t p tp </math>tp, <math xmlns="http://www.w3.org/1998/Math/MathML"> t n tn </math>tn, <math xmlns="http://www.w3.org/1998/Math/MathML"> f p fp </math>fp, <math xmlns="http://www.w3.org/1998/Math/MathML"> f n fn </math>fn的概念,参见下表:

实际结果(真) 实际结果(假)
预测结果(真) tp(true positive)真阳性 fp(false positive)假阳性
预测结果(假) fn(false negative)假阴性 tn(true negative)真阴性

2.2. 使用示例

python 复制代码
import numpy as np
from sklearn.metrics import matthews_corrcoef

n = 100
k = 2
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s = matthews_corrcoef(y_true, y_pred)
print("matthews corrcoef:{}".format(s))

# 运行结果
matthews corrcoef:0.028231544780468854

上面示例中,用的随机样本数据是二分类(k=2)的,不过,马修斯相关系数对多分类数据也是支持的。

3. 总结

总的来说,杰卡德相似系数马修斯相关系数 为我们提供了更全面、更深入的分类模型性能评估视角。

尤其是在处理不平衡数据集时,这两个指标的表现尤为突出。

杰卡德相似系数 从集合相似度的角度展现了模型的预测准确性,

马修斯相关系数则综合考虑了各类别的预测情况,为模型的整体性能给出了更为准确的反馈。

关于分类模型的内容可参考之前的文章:

  1. sklearn基础--『监督学习』之K-近邻分类
  2. sklearn基础--『监督学习』之逻辑回归分类
  3. sklearn基础--『监督学习』之贝叶斯分类
  4. sklearn基础--『监督学习』之决策树分类
  5. sklearn基础--『监督学习』之随机森林分类
  6. sklearn基础--『监督学习』之支持向量机分类
相关推荐
Blossom.1185 小时前
量子计算与经典计算的融合与未来
人工智能·深度学习·机器学习·计算机视觉·量子计算
硅谷秋水5 小时前
MoLe-VLA:通过混合层实现的动态跳层视觉-语言-动作模型实现高效机器人操作
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人
小李独爱秋6 小时前
机器学习开发全流程详解:从数据到部署的完整指南
人工智能·机器学习
Dovis(誓平步青云)7 小时前
深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本
人工智能·深度学习·机器学习·数据挖掘·服务发现·智慧城市
ZTLJQ7 小时前
基于机器学习的三国时期诸葛亮北伐失败因素量化分析
人工智能·算法·机器学习
赵钰老师7 小时前
【Deepseek、ChatGPT】智能气候前沿:AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·数据分析
nuise_7 小时前
李宏毅机器学习笔记06 | 鱼和熊掌可以兼得的机器学习 - 内容接宝可梦
人工智能·笔记·机器学习
databook9 小时前
线性模型与多分类问题:简单高效的力量
python·机器学习·scikit-learn
就决定是你啦!15 小时前
机器学习 第一章 绪论
人工智能·深度学习·机器学习
liruiqiang0518 小时前
循环神经网络 - 简单循环网络
人工智能·rnn·深度学习·神经网络·机器学习