LLM(大语言模型)常用评测指标之F1-Score

F1-Score

F1-Score 是一种常用于评估分类模型性能的指标,特别是在数据不平衡的情况下。它是精确度 (Precision) 和召回率 (Recall) 的调和平均值,用于衡量模型对正类的预测能力。

计算方法

  1. 精确度 (Precision) :是指正确预测为正类的数量与所有预测为正类的数量之比。它反映了模型预测正类的准确性。
    P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP

    其中,TP (True Positives) 是真正类的数量,FP (False Positives) 是假正类的数量。

  2. 召回率 (Recall) :是指正确预测为正类的数量与实际正类的数量之比。它反映了模型找出正类的能力。
    R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP

    其中,FN (False Negatives) 是假负类的数量。

  3. F1-Score :是精确度和召回率的调和平均值,用于平衡精确度和召回率。
    F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

应用场景

F1-Score 通常用于评估分类模型,尤其是在正负类样本不平衡的情况下。它帮助衡量模型对少数类的预测能力,因此在医学诊断、欺诈检测、文本分类等领域被广泛使用。

示例

假设一个二分类模型的混淆矩阵如下:

预测正类 预测负类
实际正类 TP = 80 FN = 20
实际负类 FP = 30 TN = 70
  • 精确度 (Precision) = 80 / (80 + 30) = 0.727
  • 召回率 (Recall) = 80 / (80 + 20) = 0.8
  • F1-Score = 2 * (0.727 * 0.8) / (0.727 + 0.8) = 0.761

因此,该模型的 F1-Score 为 0.761,反映了模型在平衡精确度和召回率方面的性能。

相关推荐
薛定猫AI19 小时前
【深度解析】从 Antigravity 2.0 看 AI Agent 的产品化演进:动态子代理、项目工作区与多模型编排实战
人工智能
2的n次方_19 小时前
健身 Agent:不止视频,更有 AI 人物实时跟练交互
人工智能·音视频·交互·魔珐星云
前端不太难19 小时前
CPU+GPU:开启AI推理新时代
人工智能·状态模式
chian-ocean19 小时前
创业者实操:10 分钟搭建可商业化的交互型 AI 家电导购产品
人工智能
海上彼尚19 小时前
Nodejs也能写Agent - 6.基础篇 - Agent
前端·人工智能·后端·node.js
viperrrrrrrrrr719 小时前
强化学习入门笔记
人工智能·强化学习
轻刀快马19 小时前
AI 架构的文艺复兴:用操作系统“内存管理”重构 LLM 状态机 —— 深度解密 Claude Code
人工智能·架构
随身数智备忘录19 小时前
拆解安全生产法三大核心功能,安全生产法如何解决责任不清与事故追责难
大数据·人工智能·安全
努力努力再努力wz19 小时前
【QT入门系列】QWidget 六大常用属性详解:windowOpacity、cursor、font、focus、toolTip 与 styleSheet
android·开发语言·数据结构·c++·qt·mysql·算法
子榆.19 小时前
CANN PyTorch适配器深度拆解:从.cuda()到.npu()到底发生了什么
人工智能·pytorch·python