机器学习（二十二）：精度和召回率

芷芷在学习2024-07-28 10:06

一、倾斜数据集

倾斜数据集：一个数据集中的正面和负面例子的比例非常不平衡，比如数据集中，结果为1的占比20%，结果为0的占比80%

例子：如果数据集的结果中只有0.5%是1，其余结果是0。有一个模型的预测准确度是99.5%，但是预测了所有数据的结果都是0，这个模型的准确度很高，但是预测不出结果为1，这不能代表这个模型是好模型。因此需要引入其他的误差度量方式来评估模型好坏。

精度：预测为1的数据中，实际真正为1的占比。

召回率：实际为1的数据中，预测真正为1的占比。

例子：下图是实际结果为1和0时，预测结果为1和0的数量统计。

精度计算：

精度=真正1的数量/预测为1的数量=真1的数量/（真1的数量+假1的数量)=15/(15+5)

召回率计算：

召回率=真正1的数量/实际1的数量=真1的数量/(真1的数量+假0的数量)=15/(15+10)

以逻辑回归为例：模型预测出结果为1的概率是

可以设定阈值为0.5，当≥0.5时，结果为1，当＜0.5时，结果为0

也可以设定阈值为0.7，当≥0.7时，结果为1，当＜0.7时，结果为0

也可以设定阈值为0.3，当≥0.3时，结果为1，当＜0.3时，结果为0

当提高阈值，能提高精度，但是会降低召回率

当降低阈值，能提高召回率，但是会降低精度

如何权衡精度和召回率？

可以使用F1 score结合精度和召回率，F1 score也称为谐波平均值，是一种取平均值的方法，计算结果更偏向于较小的值。

计算公式（P为精度，R为召回）：

学习来源：吴恩达机器学习，14.1-14.2节