【scikit-learn基础】--『分类模型评估』之系数分析

前面两篇介绍了分类模型 评估的两类方法,准确率分析损失分析

本篇介绍的杰卡德相似系数马修斯相关系数 为我们提供了不同的角度来观察模型的性能,

尤其在不平衡数据场景中,它们更能体现出其独特的价值。

接下来,让我们一起了解这两个评估指标的原理与特点。

1. 杰卡德相似系数

杰卡德相似系数Jaccard similarity coefficient)用于衡量两个集合的相似度。

在分类模型中,通常将每个类别看作一个集合,然后计算模型预测结果与实际结果之间的杰卡德相似系数。

杰卡德相似系数 能够直观地反映模型预测的准确性,并且对于不平衡数据集具有一定的鲁棒性。

它特别适用于二元分类问题,但也可以扩展到多类分类问题中。

1.1. 计算公式

\(J(y, \hat{y}) = \frac{|y \cap \hat{y}|}{|y \cup \hat{y}|}\)

其中,\(y\)是真实值,\(\hat y\)是预测值。

1.2. 使用示例

python 复制代码
import numpy as np
from sklearn.metrics import jaccard_score

n = 100
k = 2
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s = jaccard_score(y_true, y_pred)
print("jaccard score:{}".format(s))

# 运行结果:
jaccard score:0.36585365853658536

上面的示例中,是针对二分类数据(k=2)来计算杰卡德相似系数的。

如果是多分类的数据,需要设置jaccard_scoreaverage参数,否则会报错。
average参数主要有以下选项:

  • binary :仅当目标 是二分类时才适用
  • micro :通过计算总的真阳性假阴性假阳性来计算全局指标
  • macro :计算每个标签的指标,并找到它们的未加权平均值
  • weighted:计算每个标签的指标,并找到其平均值,并按支持度(每个标签的真实实例数)加权
  • samples:计算每个实例的指标,并找到它们的平均值(仅对多标签分类有意义)
python 复制代码
import numpy as np
from sklearn.metrics import jaccard_score

n = 100
k = 5
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s1 = jaccard_score(y_true, y_pred, average="micro")
s2 = jaccard_score(y_true, y_pred, average="macro")
s3 = jaccard_score(y_true, y_pred, average="weighted")
print("jaccard score:\nmicro:{}\nmacro:{}\nweighted:{}".format(s1, s2, s3))

# 运行结果:
jaccard score:
micro:0.0989010989010989
macro:0.09772727272727273
weighted:0.09639935064935062

上面的示例是多分类的情况,不设置 average参数的话,会报错。

2. 马修斯相关系数

马修斯相关系数Matthews correlation coefficient)是一种用于衡量二分类模型性能的指标,

它考虑了真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)四个方面的信息。

马修斯相关系数 对于不平衡数据集具有较好的适应性,并且能够综合考虑模型的真正例率和真负例率。

与准确率、召回率等指标相比,马修斯相关系数在处理不平衡数据集时更为可靠。

2.1. 计算公式

\(MCC = \frac{tp \times tn - fp \times fn}{\sqrt{(tp + fp)(tp + fn)(tn + fp)(tn + fn)}}\)

关于 \(tp\),\(tn\),\(fp\),\(fn\)的概念,参见下表:

实际结果(真) 实际结果(假)
预测结果(真) tp(true positive)真阳性 fp(false positive)假阳性
预测结果(假) fn(false negative)假阴性 tn(true negative)真阴性

2.2. 使用示例

python 复制代码
import numpy as np
from sklearn.metrics import matthews_corrcoef

n = 100
k = 2
y_true = np.random.randint(0, k, n)
y_pred = np.random.randint(0, k, n)

s = matthews_corrcoef(y_true, y_pred)
print("matthews corrcoef:{}".format(s))

# 运行结果
matthews corrcoef:0.028231544780468854

上面示例中,用的随机样本数据是二分类(k=2)的,不过,马修斯相关系数对多分类数据也是支持的。

3. 总结

总的来说,杰卡德相似系数马修斯相关系数 为我们提供了更全面、更深入的分类模型性能评估视角。

尤其是在处理不平衡数据集时,这两个指标的表现尤为突出。

杰卡德相似系数 从集合相似度的角度展现了模型的预测准确性,

马修斯相关系数则综合考虑了各类别的预测情况,为模型的整体性能给出了更为准确的反馈。

相关推荐
大霞上仙25 分钟前
nonlocal 与global关键字
开发语言·python
Mark_Aussie1 小时前
Flask-SQLAlchemy使用小结
python·flask
程序员阿龙1 小时前
【精选】计算机毕业设计Python Flask海口天气数据分析可视化系统 气象数据采集处理 天气趋势图表展示 数据可视化平台源码+论文+PPT+讲解
python·flask·课程设计·数据可视化系统·天气数据分析·海口气象数据·pandas 数据处理
ZHOU_WUYI1 小时前
Flask与Celery 项目应用(shared_task使用)
后端·python·flask
且慢.5891 小时前
Python_day47
python·深度学习·计算机视觉
佩奇的技术笔记2 小时前
Python入门手册:异常处理
python
大写-凌祁2 小时前
论文阅读:HySCDG生成式数据处理流程
论文阅读·人工智能·笔记·python·机器学习
爱喝喜茶爱吃烤冷面的小黑黑2 小时前
小黑一层层削苹果皮式大模型应用探索:langchain中智能体思考和执行工具的demo
python·langchain·代理模式
Blossom.1183 小时前
使用Python和Flask构建简单的机器学习API
人工智能·python·深度学习·目标检测·机器学习·数据挖掘·flask
Love__Tay4 小时前
【学习笔记】Python金融基础
开发语言·笔记·python·学习·金融