机器学习测试模型的性能评估与探索

1 问题

问题: 探索其他指标的实现方法,例如precision, recall, f1-score?

2 方法

  1. 准确度(Precision):精确度是指被分类为正类别的样本中实际为正类别的比例。精确度可用于衡量模型在正类别上的准确性。

2.召回率(Recall):召回率是指实际为正类别的样本中被正确分类为正类别的比例。召回率可用于衡量模型对正类别样本的覆盖程度。

3.F1 分数(F1-Score):F1 分数是精确度和召回率的调和平均值,它提供了同时考虑精确度和召回率的指标,通常在不平衡的数据集中很有用。

准确度(Precision)

准确度P就表示在预测结果为正例的样本里,真实情况也为正例所占的比率

准确度

适用场景:当反例被错误的预测为正例(假正例)产生的代价很高的时候,适合用查准率,因为高查准率意味着低假正率/假阳性.比如在垃圾邮件检测中,假正例意味着非垃圾邮件(实际为负)被错误的预测为垃圾邮件(预测为正).如果一个垃圾邮件监测系统的查准率不高导致很多非垃圾邮件被归到垃圾邮箱里去,那么邮箱用户可能会丢失或者漏看一些很重要的邮件.

Recall 召回率是指实际为正类别的样本中被正确分类为正类别的比例。召回率可用于衡量模型对正类别样本的覆盖程度。

召回率

使用场景:当正例被错误的预测为反例(假反例)产生很高的代价时,用查全率,因为高查全率意味着低假反率/假阴性.比如说在银行的欺诈检测或医院的病患者检测中,如果将欺诈性交易(实际为正)预测为非欺诈性交易(预测为负),则可能会给银行带来非常严重的损失。再比如以最近的新冠疫情为例,如果一个患病者(实际为正)经过试剂检测被预测为没有患病(预测为负),这样的假反例或者说假阴性产生的风险就非常大.

F1 Score

F1是查准率和查全率的一个加权平均,F1 Score表达式如下

F1把假反例和假正例都考虑在内,F1比Accuracy更适用,尤其是当你的数据集类别分布不均衡时.比如说你的样本中正样本:负样本 = 100:1.

当假正例和假反例造成的代价差不多的时候直接用Accuracy就可以,但是当假正例和假反例产生的代价差别很大的时候,则可以考率更好的度量比如Precision,Recall和F1 Score.

3 结语

在机器学习的分类任务中,精确率(precision),召回率(recall),F1 score这几个评估分类效果的指标。而理解这几个评价指标各自的含义和作用对全面认识分类模型的效果有着重要的作用。

相关推荐
小毅&Nora2 小时前
【人工智能】【深度学习】 ⑩ 图神经网络(GNN)从入门到工业落地:消息传递、稀疏计算与推荐/风控实战
人工智能·深度学习·图神经网络gnn
zhangfeng11332 小时前
大语言模型Ll M 这张图的核心信息是:随着模型规模变大,注意力(attention)层消耗的 FLOPs 占比越来越高,而 MLP 层占比反而下降。
人工智能
你那是什么调调2 小时前
大语言模型如何“思考”与“创作”:以生成一篇杭州游记为例
人工智能·语言模型·chatgpt
老蒋新思维2 小时前
创客匠人峰会洞察:IP 信任为基,AI 效率为翼,知识变现的可持续增长模型
大数据·网络·人工智能·网络协议·tcp/ip·创始人ip·创客匠人
老蒋新思维2 小时前
创客匠人峰会新洞察:AI 时代创始人 IP 的生态位战略 —— 小众赛道如何靠 “精准卡位” 实现千万知识变现
网络·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人
玖日大大2 小时前
ModelEngine 可视化编排实战:从智能会议助手到企业级 AI 应用构建全指南
大数据·人工智能·算法
DashVector2 小时前
通义 DeepResearch:开源 AI 智能体的新纪元
人工智能·阿里云·ai·语言模型
大千AI助手2 小时前
Text-Embedding-Ada-002:技术原理、性能评估与应用实践综述
人工智能·机器学习·openai·embedding·ada-002·文本嵌入·大千ai助手
北京地铁1号线2 小时前
知识图谱简介
人工智能·知识图谱