机器学习评估指标-学习篇

目录

  1. 模型评估概述
    1. 样本集划分
    2. N折交叉验证技术
    3. 什么是评测指标
  2. 常见评估指标
    1. 两类常见的评测指标
    2. 正负样本划分
    3. 准确率/召回率/精确度
    4. PR曲线和F1 score
    5. ROC曲线
    6. AUC
    7. 混淆矩阵
    8. IoU
    9. PSNR

一、模型评估概述

模型评估是机器学习和人工智能领域中的一个关键环节,它旨在对训练好的模型进行性能评估,以了解模型在未见过的新数据上的表现。
模型评估的目的
验证模型性能: 通过评估,确定模型在给定任务上的准确度、可靠性、泛化能力等指标。
识别错误和偏差: 发现模型在特定类型数据或情境中的弱点,如过拟合、欠拟合或偏差。
指导模型改进: 提供关于如何调整模型参数、优化数据处理方法的具体见解。
支持迭代开发: 评估结果是迭代开发过程中不可或缺的部分,帮助开发者在每个阶段优化模型。
确保模型适用性: 评估模型在现实世界复杂和不可预测数据上的表现,确保模型能够有效工作。

  1. 样本集划分
    样本集分为训练集,验证集,测试集3个不相交的子集

    训练集:用于训练模型
    验证集:用于优化模型训练中的超参数
    测试集:用于测试模型的精度
    以训练集训练模型;以验证集评估模型,寻找最佳的参数;以测试集测试模型一次,其误差近似为泛化误差。
  2. N折交叉验证技术
    将样本集均匀的分成N份,轮流用其中的N-1份作为训练集,剩下的1份作为测试集
  3. 什么是评测指标
    机器学习算法的性能评测指标用于衡量算法的优劣,作为各种方法比较的基准,指导我们对模型进行选择与优化

二、常见评估指标

分类任务评测指标与回归任务评测指标

  1. 正负样本划分

    标签为正样本,分类为正样本的数目为True Positive,简称TP。

    标签为正样本,分类为负样本的数目为False Negative,简称FN。

    标签为负样本,分类为正样本的数目为False Positive,简称FP。

    标签为负样本,分类为负样本的数目为True Negative,简称TN。

  2. 准确率/召回率/精确度

    准确率,精度,召回率计算
    准确率: Accuracy=(TP+TN)/(TP+FP+TN+FN) ,被判定为正样本的测试样本中,真正的正样本所占的比例
    正样本精度: Precision=TP/(TP+FP),召回的正样本中有多少是真正的正样本。
    正样本召回率: Recall=TP/(TP+FN),被判定为正样本的正样本占所有正样本的比例。

    1. PR曲线和F1 score

      精度与召回率是一对相互矛盾的指标,对正负样本不均衡问题敏感

      F1 score 综合考虑了精度与召回率,其值越大则模型越好

    2. ROC曲线

      分类算法在不同假阳率下对应的真阳率

      假阳率false positive rate(FPR):FPR=FP/(FP+TN) , 负样本被分类器判定为正样本的比例。

      真阳率true positive rate(TPR):TPR=TP/(TP+FN) , 正样本被分类器判定为正样本的比例。

    3. AUC

      AUC (Area Under Curve) 为 ROC 曲线下的面积, 表示随机挑选一个正样本以及一个负样本,分类器会对正样本给出的预测值高于负样本的概率

    4. 混淆矩阵

      对于k分类问题,混淆矩阵为↓ 的矩阵,元素cij表示第i类样本被分类器判定为第j类的数量

主对角线的元素之和为正确分类的样本数,其他元素之和为错误分类的样本数。对角线的值越大,分类器准确率越高;

  1. IoU

    IoU(Intersection over Union) ,边界框/掩膜正确性的度量指标

    前景目标交并比 ,重叠情况结果0-1 ,数值越大,表示预测结果越准确

  2. PSNR

    PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)是一种评估图像质量的指标,特别是在图像处理、图像压缩和图像重建等领域中广泛使用。PSNR测量的是图像中最大可能的像素值与其受到噪声影响后的失真程度之间的比率。这个值越高,代表图像的质量越好,失真越少。

相关推荐
CheerWWW5 分钟前
C++学习笔记——箭头运算符、std::vector的使用、静态链接、动态链接
c++·笔记·学习
墨染天姬7 分钟前
【AI】如何基于cursor创建MCP索引pdf
人工智能·pdf
数字供应链安全产品选型9 分钟前
AI造“虾”易,治理难?悬镜多模态 SCA 技术破局 AI 数字供应链治理困局!
人工智能·安全·网络安全·ai-native
火山引擎开发者社区10 分钟前
只需聊聊天,应用就上线:ArkClaw 对话开发与 IGA Pages 极速部署实践
人工智能
沅_Yuan11 分钟前
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】
机器学习·回归·cnn·lstm·attention·核密度估计·kde
昨夜见军贴061612 分钟前
AI报告编审解决方案重塑工作节奏:IA-Lab AI检测报告生成助手与IACheck让报告处理从紧张走向从容
人工智能
芯智工坊12 分钟前
第13章 Mosquitto监控与日志管理
前端·网络·人工智能·mqtt·开源
扬帆破浪14 分钟前
开源的WPS AI文档编审软件适用场景:察元 AI 文档助手
人工智能·开源
爱学习的小仙女!20 分钟前
机器学习面试题(二) 损失函数 常见损失函数
人工智能·机器学习
墨染天姬21 分钟前
【AI】注意力机制
人工智能