AI 术语通俗词典：F1 值（分类）

F1 值是统计学、机器学习和人工智能中非常常见的一个术语。它用来描述一个分类模型在查准能力和查全能力之间的综合表现。换句话说，F1 值是在回答：模型不仅要尽量找对正类，还要尽量少找错正类时，整体表现到底怎么样。

如果说精确率（Precision）回答的是"被模型判成正类的样本里，有多少是真的正类"，召回率（Recall）回答的是"所有真实正类里，有多少被模型找出来了"，那么 F1 值回答的就是"这两方面综合起来，模型到底做得怎么样"。因此，F1 值常用于分类模型评估、类别不平衡任务、信息检索和人工智能系统分析，在人工智能与数据分析中具有重要基础意义。

一、基本概念：什么是 F1 值

F1 值（F1 Score）是精确率与召回率的调和平均数。其公式可写为：

其中：

• P 表示精确率（Precision）

• R 表示召回率（Recall）

如果把精确率与召回率展开写，则可写为：

于是，F1 值也可写成：

其中：

• TP 表示真正例（True Positive），也就是真实是正类，模型也判为正类

• FP 表示假正例（False Positive），也就是真实是负类，但模型误判为正类

• FN 表示假负例（False Negative），也就是真实是正类，但模型漏判为负类

从通俗角度看，F1 值可以理解为：模型既要"找得准"，又要"找得全"时的综合分数。

它不是单独看某一方面，而是要求：

• 不能只顾着提高精确率而牺牲召回率

• 也不能只顾着提高召回率而让精确率太差

因此，F1 值特别适合用来衡量"这两个目标都重要"的场景。

二、为什么需要 F1 值

F1 值之所以重要，是因为在很多分类任务中，单独看精确率或单独看召回率都不够。

例如，在垃圾邮件识别中：

如果模型特别保守，只在非常确定时才判为垃圾邮件，那么精确率可能很高，因为一旦判为垃圾邮件，大多都是真的；但与此同时，很多垃圾邮件可能没有被识别出来，召回率就会很低。

反过来：

如果模型非常激进，只要稍微像垃圾邮件就判为垃圾邮件，那么召回率可能很高；但它也会把很多正常邮件误判进去，精确率就会下降。

这说明：

• 只看精确率，可能忽略"漏掉了多少正类"

• 只看召回率，可能忽略"误抓了多少负类"

因此，我们需要一个能够同时反映这两方面的指标，F1 值正是为此而设计的。

从通俗角度看，F1 值可以理解为：不是只问"准不准"，也不是只问"全不全"，而是问"准和全综合起来到底怎么样"。

三、F1 值的直观含义

F1 值最重要的直觉，是它要求精确率和召回率都不能太差。

因为它使用的是调和平均数，而不是普通平均数。

调和平均数有一个很重要的特点：如果两个数中有一个特别小，最终结果就会被明显拉低。

这意味着：

• 如果精确率很高，但召回率很低，F1 值不会高

• 如果召回率很高，但精确率很低，F1 值也不会高

• 只有当二者都比较均衡时，F1 值才会高

例如：

情况一：精确率和召回率都不错

若：

apache 复制代码

P = 0.8R = 0.8

那么：

情况二：精确率高，但召回率低

若：

apache 复制代码

P = 0.9R = 0.3

那么：

可以看到，虽然精确率很高，但由于召回率过低，F1 值并不高。

从通俗角度看，F1 值像是在说：只要有一边明显拖后腿，综合成绩就上不去。这正是它的价值所在。

四、F1 值的重要性与常见应用场景

1、F1 值的重要性

F1 值之所以重要，是因为很多实际任务并不允许模型只在一个方向上表现好。

首先，F1 值能够同时兼顾精确率与召回率。

在很多任务中，我们既不希望模型误报太多，也不希望模型漏检太多。F1 值正好提供了一个综合衡量标准。

其次，F1 值特别适合类别不平衡问题。

当正类和负类数量差异很大时，仅看准确率（Accuracy）往往会产生误导。例如，一个数据集里 95% 都是负类，模型即使总是预测为负类，也能得到很高的准确率，但这并不表示模型真的有效。此时，F1 值通常比准确率更有参考意义。

再次，F1 值有助于比较不同模型的分类平衡能力。

两个模型可能准确率相近，但一个在精确率和召回率之间更均衡，另一个则明显偏向某一端。F1 值能够更清楚地反映这种差别。

可以概括地说：

• 准确率强调"总体上判对了多少"

• F1 值强调"在正类识别上，准和全是否兼顾"

2、常见应用场景

（1）在信息检索中，F1 值非常常见

例如搜索引擎、文档检索、问答系统中，既希望返回结果相关，又希望不要漏掉太多相关内容。

（2）在医学筛查中，F1 值常用于综合评估模型

例如疾病检测任务中，既不希望把大量健康人误判成患者，也不希望漏掉真正患者。

（3）在垃圾邮件识别、欺诈检测中，F1 值很重要

这些任务通常都很在意误报和漏报之间的平衡。

（4）在类别不平衡的机器学习任务中，F1 值常作为核心指标之一

例如少数类识别、异常检测、风险预警等。

（5）在自然语言处理任务中，F1 值也很常见

例如命名实体识别、分词、信息抽取等任务中，F1 值是经典评价指标之一。

五、F1 值与精确率、召回率的关系

F1 值和精确率、召回率几乎总是一起出现，因此有必要把它们的关系说清楚。

1、精确率看"找出来的有多准"

精确率的公式为：

它回答的是：模型判成正类的样本中，有多少是真的正类。

2、召回率看"真正正类找出了多少"

召回率的公式为：

它回答的是：所有真实正类中，有多少被模型找出来了。

3、F1 值看"这两方面综合起来如何"

F1 值的公式为：

它强调的是：不能只在一个方向上好，而要让二者保持相对均衡。

从通俗角度看：

• 精确率像是在问"抓到的准不准"

• 召回率像是在问"该抓的抓到了多少"

• F1 值像是在问"准和全综合起来得分如何"

六、F1 值与准确率的区别

F1 值经常和准确率一起出现，但二者关注的重点很不一样。

1、准确率关注总体正确比例

准确率的公式为：

它表示所有样本里总共判对了多少。

2、F1 值更关注正类识别质量

F1 值不直接关心 TN，也就是不直接把"正确识别负类"作为主要组成部分。

它更聚焦于：

• 找正类时准不准

• 找正类时全不全

3、在类别不平衡时，F1 值通常更有参考意义

例如，一个数据集里有 990 个负类，10 个正类。

如果模型把所有样本都判为负类，那么：准确率仍然可能高达 99%，但正类一个都没找出来，此时召回率为 0，F1 值也会非常差。

这说明，F1 值往往比准确率更能揭示"模型到底有没有把关键类别识别出来"。

七、F1 值的取值范围与理解方式

F1 值通常取值在 0 到 1 之间。

1、F1 = 1

表示精确率和召回率都达到了理想水平。

也就是说，模型既找得准，又找得全。

2、F1 = 0

通常表示模型在正类识别上表现极差，例如完全没有正确识别出正类。

3、F1 越接近 1，通常说明综合表现越好

但也要注意，它反映的是精确率与召回率的平衡结果，而不是所有方面都完美。

从通俗角度看，F1 值像是一个"平衡型成绩"：

• 两科都不错，综合分才高

• 只偏科，不容易拿高分

八、F1 值的局限与注意事项

1、F1 值不考虑真正负例 TN

这意味着，如果任务很在意负类的正确识别，那么单看 F1 值可能不够。

2、F1 值不能完全替代精确率和召回率

虽然 F1 值给出了综合结果，但它会把两者压缩成一个数。

在实际分析中，通常仍然需要同时看：

• Precision

• Recall

• F1

因为只有这样，才能知道模型到底偏向哪一边。

3、不同业务中"平衡"未必是唯一目标

有些任务更怕误报，例如自动封禁系统；

有些任务更怕漏报，例如疾病筛查。

此时，单纯追求 F1 值最高，不一定就是最合适的业务选择。

4、类别极不平衡时，要结合任务背景解释

F1 值虽然比准确率更适合不平衡任务，但仍需要结合具体业务场景判断其含义。

九、Python 示例

下面给出两个简单示例，用来说明 F1 值的基本计算方式。

示例 1：手动根据精确率和召回率计算 F1 值

apache 复制代码

# 假设精确率和召回率precision = 0.8recall = 0.6
# 计算 F1 值f1 = 2 * precision * recall / (precision + recall)
print("Precision =", precision)print("Recall =", recall)print("F1 =", f1)

这个例子展示了 F1 值最基本的计算方式：把精确率和召回率综合起来，得到一个平衡型指标。

示例 2：使用 scikit-learn 计算 F1 值

python 复制代码

from sklearn.metrics import f1_score
# 真实标签y_true = [1, 0, 1, 1, 0, 1, 0, 0]
# 模型预测标签y_pred = [1, 0, 1, 0, 0, 1, 1, 0]
# 计算 F1 值f1 = f1_score(y_true, y_pred)
print("真实标签：", y_true)print("预测标签：", y_pred)print("F1 值：", f1)

这个例子展示了实际建模中常见的做法。

在 scikit-learn 中，可以直接使用 f1_score 计算二分类任务的 F1 值。

📘 小结

F1 值是一种综合精确率与召回率的分类评价指标。它通过调和平均数，把"找得准"和"找得全"两个方面结合起来，特别适合类别不平衡、同时重视误报与漏报的任务。在信息检索、医学筛查、异常检测和自然语言处理等领域，F1 值都非常常见。对初学者而言，可以把它理解为：精确率说明"抓到的准不准"，召回率说明"该抓的抓到了多少"，而 F1 值说明"这两方面综合起来到底怎么样"。

"点赞有美意，赞赏是鼓励"