【机器学习笔记】5 机器学习实践

数据集划分

子集划分

训练集(Training Set) :帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。
验证集(Validation Set) :也叫做开发集( Dev Set ),用来做模型选择(model selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选
测试集(Test Set) : 为了测试已经训练好的模型的精确度。

三者划分:训练集、验证集、测试集,区别与数据量有关

机器学习:60%,20%,20%;70%,10%,20%(不划验证集就75%,25%)

深度学习:98%,1%,1% (假设百万条数据)

交叉验证

  1. 使用训练集训练出k个模型
  2. 用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
  3. 选取代价函数值最小的模型
  4. 用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

不平衡数据的处理

数据不平衡是指数据集中各类样本数量不均衡的情况.

常用不平衡处理方法有采样和代价敏感学习

采样欠采样、过采样和综合采样的方法

SMOTE(Synthetic Minority Over-sampling Technique)算法是过采样中比较常用的一种。算法的思想是合成新的少数类样本,而不是简单地复制样本。算法过程如图:

代价敏感学习

代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法

比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很多多类样本分类为少类样本,降低少类样本分类的查准率。

评价指标(分类问题)


例: 有100张照片,其中,猫的照片有60张,狗的照片是40张。

输入这100张照片进行二分类识别,找出这100张照片中的所有的猫。

正例(Positives):识别对的

负例(Negatives):识别错的

TP、TN对角线的数据越多越好


AUC是ROC曲线下的面积,面积越大越好

PR曲线是精度和昭回度的曲线,曲线下的面积越大越好

正则化、偏差与方差






模型复杂度与误差的关系,一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,在虚线处,差不多是模型复杂度的最恰当的选择,其"偏差"和"方差"也都适度,才能"适度拟合"

训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合

  1. 获得更多的训练实例------解决高方差
  2. 尝试减少特征的数量------解决高方差
  3. 尝试获得更多的特征------解决高偏差
  4. 尝试增加多项式特征------解决高偏差
  5. 尝试减少正则化程度λ------解决高偏差
  6. 尝试增加正则化程度λ------解决高方差
相关推荐
Coffeeee3 分钟前
帮你快速理解AI Agent之我想招个Android实习生
android·人工智能·agent
新新技术迷9 分钟前
AI聊天自动跟随滚动,附回到底部按钮
人工智能
先锋部队9 分钟前
用Web Worker解析AI返回的大文本不卡UI
人工智能
把你拉进白名单13 分钟前
8.OpenClaw源码解析——三层洋葱重试
人工智能·llm·agent
用户6324150317815 分钟前
拖文档进AI对话框解析,前端要处理哪些脏活
人工智能
姗姗来迟了22 分钟前
AI回答里的引用来源卡片,前端怎么做
人工智能
用户71062077334023 分钟前
Codex-端口配置错误排查案例(stream disconnected before completion)
人工智能
IT_陈寒1 小时前
JavaScript的默认参数挖坑实录,我掉进去了
前端·人工智能·后端
米小虾2 小时前
多Agent系统编排详解:从架构设计到代码实现
人工智能·agent
米小虾2 小时前
多Agent系统的编排:架构、协议与企业级应用
人工智能·agent