LLM(大语言模型)常用评测指标之F1-Score

ChenDuBr2024-03-12 13:17

F1-Score

F1-Score 是一种常用于评估分类模型性能的指标，特别是在数据不平衡的情况下。它是精确度 (Precision) 和召回率 (Recall) 的调和平均值，用于衡量模型对正类的预测能力。

精确度 (Precision) ：是指正确预测为正类的数量与所有预测为正类的数量之比。它反映了模型预测正类的准确性。
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP

其中，TP (True Positives) 是真正类的数量，FP (False Positives) 是假正类的数量。
召回率 (Recall) ：是指正确预测为正类的数量与实际正类的数量之比。它反映了模型找出正类的能力。
R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP

其中，FN (False Negatives) 是假负类的数量。
F1-Score ：是精确度和召回率的调和平均值，用于平衡精确度和召回率。
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

F1-Score 通常用于评估分类模型，尤其是在正负类样本不平衡的情况下。它帮助衡量模型对少数类的预测能力，因此在医学诊断、欺诈检测、文本分类等领域被广泛使用。

假设一个二分类模型的混淆矩阵如下：

	预测正类	预测负类
实际正类	TP = 80	FN = 20
实际负类	FP = 30	TN = 70

因此，该模型的 F1-Score 为 0.761，反映了模型在平衡精确度和召回率方面的性能。