【漫话机器学习系列】019.布里(莱)尔分数（Birer score）

Brier Score（布里尔分数）

Brier Score 是一种用于衡量概率预测准确性的评估指标，特别适用于二分类或多分类问题。它通过计算预测概率与真实标签之间的均方误差来评估模型的预测能力。布里尔分数最初由 Glenn W. Brier 于1950年提出，主要用于天气预报的概率预测分析。

定义

对于一个样本集：

是样本 i 的真实标签，通常为 0 或 1（在二分类问题中）。
是模型预测的样本 i 属于正类的概率。

布里尔分数定义为：

性质：

取值范围：
。
- ：模型预测完美。
- ：模型预测完全错误。
本质：布里尔分数是均方误差的一种形式，适合概率预测。

分解

布里尔分数可以通过分解公式细化为以下三个部分：

Uncertainty（不确定性）
- 数据的内在不确定性，反映真实标签的分布情况。
- 当正负样本比例接近 50:50 时，不确定性较高。
Resolution（分辨率）
- 反映预测结果能否清晰地区分正负类。
- 模型预测越有信心（概率接近 0 或 1），分辨率越高。
Reliability（可靠性）
- 反映模型预测概率与真实频率的匹配程度。
- 可靠性越高，模型越能准确地预测概率值。

通过分解，可以更直观地理解模型的预测能力来源。

二分类问题的应用

在二分类问题中，布里尔分数衡量预测概率与实际标签的差异。

例如：

对于一个样本，真实标签 y = 1，预测概率 p = 0.8：

。
对于另一个样本，真实标签 y = 0，预测概率 p = 0.6：

。

整体分数是所有样本的均值。

多分类问题的扩展

对于多分类问题（分类标签为 kkk 类），布里尔分数的定义为：

其中：

是样本 i 属于类别 k 的预测概率。
是样本 i 的实际类别标签（独热编码）。

优点

概率评估

布里尔分数直接评价预测的概率值，而不仅仅是预测的类别结果。
简单易计算

数学形式简单，容易实现。
适合不平衡数据

适合概率预测问题，即使在类别分布不平衡的情况下，也能提供有意义的衡量。

缺点

忽略区分性

布里尔分数没有直接衡量模型在不同类别之间的区分能力（如 ROC AUC 那样）。
范围较窄

对于极端概率预测（如 0 和 1），可能对分数影响过大。

代码示例（Python）

以下是计算布里尔分数的一个示例代码：

python 复制代码

from sklearn.metrics import brier_score_loss
import numpy as np

# 真实标签（0或1）
y_true = np.array([0, 1, 1, 0, 1])

# 预测概率
y_prob = np.array([0.1, 0.9, 0.8, 0.4, 0.7])

# 计算布里尔分数
brier_score = brier_score_loss(y_true, y_prob)

print(f"Brier Score: {brier_score:.4f}")

输出结果

python 复制代码

Brier Score: 0.0620

总结

布里尔分数是一种评估模型概率预测能力的重要指标。

它关注模型的预测概率是否接近真实标签，而非单纯地评估分类准确率。
在许多概率预测任务（如天气预测、信用评分等）中得到广泛应用。

通过合理使用布里尔分数，可以更全面地了解模型的预测质量并指导模型改进。