周志华《机器学习—西瓜书》二

周志华《机器学习---西瓜书》二

一、过拟合和欠拟合

泛化(generalization) :模型对未见样本的适应能力,即模型在新数据上的表现能力。

泛化误差:在"未来"样本上的误差

经验误差: 在训练数据集的误差,亦称为"训练误差"

二、三大问题

1、评估方法

矛盾:希望训练集大保证模型优良,也希望测试集大保证错误可能更小,选择模型之后,最后把所有的数据集再测试一遍

  1. 留出法

    注意:

    • 保持数据分布一致性(例如:分层采样)
    • 多次重复划分(例如:100次随机划分) 目的:减少划分数据带来的误差
    • 测试集不能太大、不能太小(例如:1/5----1/3) 目的:误差带来的差异太大
  2. k--折交叉验证法

    K折指的是平均划分数据集为几份,然后从从第一个份中再次随机切分,前面为训练集,最后一个为测试集,循环。最后结果平均该方法避免第一个方法的随机抽取。

  3. 自助法

    训练集和原样本集规模相同,但是分布改变

    取出一个,复制一份放进原来的数据集。

    大概26.8%作为测试集。

调参数和超参数

算法的参数:一般由人工设定,亦称为"超参数'

模型的参数:一般由学习确定

调参过程相似:先产生若干模型,然后基于某种评估方法进行选择

参数调的好不好对性能往往对最终性能有关键影响。

区别:

  1. 验证集:训练集中专门用于调参数的部分。
  2. 训练集:用于模型训练的集合
  3. 测试集:用于测试模型结果的集合

算法参数选定后,要用"训练集+验证集"重新训练最终模型

2、性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求,使用不同的性能度量往往会导致不同的评判结果

什么样的模型是"好"的,不仅取决于算法和数据,还取决于任务需求

这部分内容属于机器学习中模型性能评估的核心指标,我们可以从以下几个角度理解:

一、错误率与精度
  • 错误率 :是模型在数据集D 上的错误预测样本数占总样本数的比例。公式中 I(f(xi)≠yi)\mathbb{I}(f(\boldsymbol{x}_i) \neq y_i)I(f(xi)=yi) 是指示函数,当模型预测值 f(xi)f(\boldsymbol{x}_i)f(xi) 与真实标签 yiy_iyi 不相等时,该函数取值为1,否则为0;( m ) 是数据集 ( D ) 的样本总数。
  • 精度 :是模型在数据集DDD上的正确预测样本数占总样本数的比例,显然精度与错误率之和为1(acc(f;D)=1−E(f;D)\text{acc}(f;D) = 1 - E(f;D)acc(f;D)=1−E(f;D))。
二、混淆矩阵与查准率、查全率
  • 混淆矩阵:是分类任务中用于可视化模型预测结果的表格,通过"真实情况"和"预测结果"的交叉组合,将样本分为四类:

    • ( TP )(真正例):真实为正例且预测为正例的样本数;
    • ( FN )(假反例):真实为正例但预测为反例的样本数;
    • ( FP )(假正例):真实为反例但预测为正例的样本数;
    • ( TN )(真反例):真实为反例且预测为反例的样本数。
  • 查准率(Precision,( P )) :也叫精确率,关注"预测为正例的样本中,真正是正例的比例",公式为 P=TPTP+FPP = \frac{TP}{TP + FP}P=TP+FPTP 。它衡量模型"预测的正例有多准"。

  • 查全率(Recall,( R )) :也叫召回率,关注"真实为正例的样本中,被模型正确预测为正例的比例",公式为 R=TPTP+FNR = \frac{TP}{TP + FN}R=TP+FNTP。它衡量模型"对正例的覆盖能力有多强"。

三、F1度量

这部分内容是机器学习中用于综合评估分类模型性能的F1度量及带权重的( F_\beta )度量,具体解释如下:

(1)、F1度量

F1是查准率(( P ))和查全率(( R ))的调和平均数 ,用于平衡二者的性能表现,公式为: F1=2×P×RP+RF1 = \frac{2 \times P \times R}{P + R}F1=P+R2×P×R

也可转化为调和平均的形式: 1F1=12⋅(1P+1R)\frac{1}{F1} = \frac{1}{2} \cdot \left( \frac{1}{P} + \frac{1}{R} \right)F11=21⋅(P1+R1)

从混淆矩阵的角度,还可推导为: F1=2×TP样例总数+TP−TNF1 = \frac{2 \times TP}{\text{样例总数} + TP - TN}F1=样例总数+TP−TN2×TP

(其中( TP )为真正例,( TN )为真反例)

(2)、带偏好的( FβF_\betaFβ )度量

当对查准率和查全率有不同优先级时,使用 FβF_\betaFβ 度量,公式为: Fβ=(1+β2)×P×R(β2×P)+RF_\beta = \frac{(1 + \beta^2) \times P \times R}{(\beta^2 \times P) + R}Fβ=(β2×P)+R(1+β2)×P×R 对应的调和平均形式: 1Fβ=11+β2⋅(1P+β2R)\frac{1}{F_\beta} = \frac{1}{1 + \beta^2} \cdot \left( \frac{1}{P} + \frac{\beta^2}{R} \right)Fβ1=1+β21⋅(P1+Rβ2)

其中 β\betaβ 是权重参数,用于控制查准率和查全率的相对重要性:

  • 若 β>1\beta > 1β>1 ,查全率( RRR )的影响更大;
  • 若 β<1\beta < 1β<1 ,查准率( PPP )的影响更大。

3、比较检验

在某种度量下取得评估结果后,是否可以直接比较以评判优劣? NO!

因为:

  • 测试性能不等于泛化性能
  • 测试性能随着测试集的变化而变化
  • 很多机器学习算法本身有一定的随机性

机器学习----------------------------> "概率近似正确"

常用方法:

统计假设检验为学习器性能比较提供了重要依据

两学习器的比较: ------------------------>统计显著性

  • 交叉验证t检验(基于成对t检验): k折交叉验证;5*2交叉验证
  • ++McNemar检验(基于列联表,卡方检验)++

相关推荐
简道云平台1 小时前
缺货预警到底怎么做?终于有人把“安全库存”这件事讲清楚了
安全
操练起来1 小时前
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
人工智能·pytorch·acl·昇腾·cann
KG_LLM图谱增强大模型1 小时前
[500页电子书]构建自主AI Agent系统的蓝图:谷歌重磅发布智能体设计模式指南
人工智能·大模型·知识图谱·智能体·知识图谱增强大模型·agenticai
声网1 小时前
活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
大数据·人工智能·实时互动
caiyueloveclamp1 小时前
【功能介绍03】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI溯源篇】
人工智能·信息可视化·powerpoint·ai生成ppt·aippt
q***48411 小时前
Vanna AI:告别代码,用自然语言轻松查询数据库,领先的RAG2SQL技术让结果更智能、更精准!
人工智能·microsoft
LCG元2 小时前
告别空谈!手把手教你用LangChain构建"能干活"的垂直领域AI Agent
人工智能
想你依然心痛2 小时前
视界无界:基于Rokid眼镜的AI商务同传系统开发与实践
人工智能·智能硬件·rokid·ai眼镜·ar技术
AI绘画小333 小时前
Web 安全核心真相:别太相信任何人!40 个漏洞挖掘实战清单,直接套用!
前端·数据库·测试工具·安全·web安全·网络安全·黑客