机器学习(二十二):精度和召回率

一、倾斜数据集

倾斜数据集:一个数据集中的正面和负面例子的比例非常不平衡,比如数据集中,结果为1的占比20%,结果为0的占比80%

例子:如果数据集的结果中只有0.5%是1,其余结果是0。有一个模型的预测准确度是99.5%,但是预测了所有数据的结果都是0,这个模型的准确度很高,但是预测不出结果为1,这不能代表这个模型是好模型。因此需要引入其他的误差度量方式来评估模型好坏。

二、精度和召回率

精度:预测为1的数据中,实际真正为1的占比。

召回率:实际为1的数据中,预测真正为1的占比。

例子:下图是实际结果为1和0时,预测结果为1和0的数量统计。

  • 实际为1,预测真1的数据有15个;
  • 实际为1,预测假0的数据有10个;
  • 实际为0,预测假1的数据有5个;
  • 实际为0,预测真0的数据有70个

精度计算:

精度=真正1的数量/预测为1的数量=真1的数量/(真1的数量+假1的数量)=15/(15+5)

召回率计算:

召回率=真正1的数量/实际1的数量=真1的数量/(真1的数量+假0的数量)=15/(15+10)

三、精度和召回的权衡

以逻辑回归为例:模型预测出结果为1的概率是

可以设定阈值为0.5,当≥0.5时,结果为1,当<0.5时,结果为0

也可以设定阈值为0.7,当≥0.7时,结果为1,当<0.7时,结果为0

也可以设定阈值为0.3,当≥0.3时,结果为1,当<0.3时,结果为0

当提高阈值,能提高精度,但是会降低召回率

当降低阈值,能提高召回率,但是会降低精度

如何权衡精度和召回率?

可以使用F1 score结合精度和召回率,F1 score也称为谐波平均值,是一种取平均值的方法,计算结果更偏向于较小的值。

计算公式(P为精度,R为召回):

学习来源:吴恩达机器学习,14.1-14.2节

相关推荐
人工智能培训几秒前
强化学习路径规划:技术内核与应用实践
人工智能·大模型·知识图谱·强化学习·智能体搭建
孟祥_成都4 分钟前
让 AI 自动写 SQL、读文档,前端也能玩转 Agent! langchain chains 模块解析
前端·人工智能
Coder_Boy_4 分钟前
基于LangChain4j的证券业务系统模块四
大数据·人工智能·spring cloud·langchain
V搜xhliang02468 分钟前
多模态MRI影像组学预测脑胶质瘤分子分型的研究进展
人工智能
爱写代码的小朋友15 分钟前
技术赋能教育革新:教育信息化与AI、计算机科学的融合发展研究
人工智能
jkyy201418 分钟前
食材图像识别与个性化饮食:智能家电如何重构膳食健康管理?
大数据·人工智能·物联网·健康医疗
kisshuan1239624 分钟前
基于Mask-RCNN与Res2Net的排水系统缺陷检测与分类
人工智能·数据挖掘
P.H. Infinity29 分钟前
【QLIB】一、系统架构
人工智能·金融
搬砖的kk32 分钟前
openJiuwen 快速入门:使用华为云大模型搭建 AI 智能体
数据库·人工智能·华为云
Gavin在路上40 分钟前
SpringAIAlibaba之从执行生命周期到实战落地(7)
人工智能