分类模型评估利器-混淆矩阵

地理时空动态模拟工具介绍（上）

地理时空动态模拟工具介绍（下）地理时空动态模拟工具的使用方法

前言

混淆矩阵（Confusion Matrix）是机器学习领域中用于评估分类模型性能的一种工具。它通过矩阵的形式，将模型的预测结果与实际分类进行比较，从而可以直观地展示分类模型的性能及精度。通常，混淆矩阵用于二分类问题（例如是否患有某种疾病），但是在GIS的分类模型中，多分类问题更为常见（例如多种土地利用类型）。

01 混淆矩阵的类别介绍

二分类混淆矩阵

对于二分类问题，混淆矩阵包含四个主要部分：

True Positive (TP)：模型正确预测为正类的实例数量。（真阳性）
False Positive (FP)：模型错误预测为正类（实际上是负类）的实例数量。（假阳性）
False Negative (FN)：模型错误预测为负类（实际上是正类）的实例数量。（假阴性）
True Negative (TN)：模型正确预测为负类的实例数量。（真阴性）

二分类混淆矩阵的结构如下：

|------|------|------|
| | 实际正类 | 实际负类 |
| 预测正类 | TP | FP |
| 预测负类 | FN | TN |

多分类混淆矩阵

多分类混淆矩阵的每行代表预测类别，每列代表实际类别，对角线上的值表示正确分类的数量，非对角线上的值表示错误分类的数量。

例如，对于一个有3个类别（A、B、C）的多分类问题，混淆矩阵的结构如下：

|----------|------|------|------|
| | 实际为A | 实际为B | 实际为C |
| 预测为A | a11 | a12 | a13 |
| 预测为B | a21 | a22 | a23 |
| 预测为C | a31 | a32 | a33 |

其中a11、a22、a33为正确的分类。类别还可以更多。同样，多分类矩阵将非对角线上的值进行合并，也可得到二分类中的TP、FP、TN、FN等相关值。

02 混淆矩阵的扩展

通过混淆矩阵，我们可以计算出多种评估指标，例如：

• 准确率（Accuracy）：(TP + TN) / (TP + TN + FP + FN)

• 精确率（Precision）：TP / (TP + FP)

• 召回率（Recall）：TP / (TP + FN)

• F1分数（F1-Score）：2 * (Precision * Recall) / (Precision + Recall)

这些指标可以帮助我们更加全面评估模型的性能，更常用于深度学习等方法中。

03 如何读懂GeoScene Pro中的混淆矩阵

Pro中的混淆矩阵，除有分类之外，还会包含U_Accuracy、P_Accuracy以及kappa系数等信息。以下表为例。

|------------|--------|--------|--------|-----|------------|--------|
| 实际预测 | C_1 | C_2 | C_3 | 总计 | U_Accuracy | kappa |
| C_1 | 49 | 4 | 4 | 57 | 0.8594 | 0 |
| C_2 | 2 | 40 | 2 | 44 | 0.9091 | 0 |
| C_3 | 3 | 3 | 59 | 65 | 0.9077 | 0 |
| 总计 | 54 | 47 | 65 | 166 | 0 | 0 |
| P_Accuracy | 0.9074 | 0.8511 | 0.9077 | 0 | 0.8916 | 0 |
| kappa | 0 | 0 | 0 | 0 | 0 | 0.8357 |

矩阵中共有3类样本。对角线上预测全部正确的共有49+40+59个样本，总数量为166，其交并比（IoU）为148/166=0.8916。

U_Accuracy字段叫做用户精度，也叫错分误差，表示预测中其他类被错分为成指定类。以第一行为例， 49个1类判断正确，4个实际为2类以及4个实际为3类的样本被错误判断为1类，1类的U_Accuracy为49/57。

P_Accuracy字段叫做制作者精度，也叫漏分误差，表示预测中指定类错报成其他类。以第一列为例，其中49个1类判断正确，2个实际为1类的样本错报成2类，3个实际为1类的样本错报成3类，1类的P_Accuracy为54/57。

表中的0.8916为整体精度。

kappa系数为0.8357，它是混淆矩阵的核心，用于整体评估分类的精度。

其公式如下：