机器学习-模型验证

验证泛化误差

  • 在一个数据集上估计误差,数据集只能使用一次
  • 验证数据集 :可以被使用多次
    基本是训练数据集中的一部分
    当使用"test"时,大多数时候指的是验证数据集

生成验证数据集方法

1、数据随机分入训练集或验证集

总是随机选n%的数据作为验证集

n=50,40,30,20,10
当分离非独立同分布的数据时要额外注意

  • 时序性数据:房价、股票价格等
    验证集应该在训练集之后
  • 属于同一组的样例:相同人的照片
    在组之间分
  • 不平衡的数据
    对小的类采样率要高
    2、K折交叉验证
  • 适用于数据不充足的数据
  • 算法:
    将数据集分成K份
    对i=1,2,...,K
    使用第i份数据作为验证集,其他作为训练集
  • 一般K=5或10

常见错误

  • 90%以上极好的结果是由于bug存在
  • 验证集中有训练集的样本
    原始数据中有重复的数据
    在数据融合时常发生:将从搜索引擎中找到的图片用于验证模型
  • 信息泄露
    经常发生于非独立同分布的数据:用未来预测过去
相关推荐
文火冰糖的硅基工坊18 小时前
[光学原理与应用-480]:《国产检测设备对比表》
前端·人工智能·系统架构·制造·半导体·产业链
河南博为智能科技有限公司18 小时前
动力环境监控主机-全方位一体化监控解决方案
运维·服务器·人工智能·物联网·边缘计算
moshumu118 小时前
局域网访问Win11下的WSL中的jupyter notebook
ide·python·深度学习·神经网络·机器学习·jupyter
大饼酥18 小时前
吴恩达机器学习笔记(10)—支持向量机
机器学习·支持向量机·吴恩达·高斯核函数
北京耐用通信19 小时前
耐达讯自动化Modbus RTU转Profibus,让电磁阀连接从此与众不同!
网络·人工智能·网络协议·网络安全·自动化
芒果量化19 小时前
ML4T - 第7章第8节 利用LR预测股票价格走势Predicting stock price moves with Logistic Regression
算法·机器学习·线性回归
Phoenixtree_DongZhao20 小时前
ICLM 2025 Time Series 时间序列论文汇总(论文链接)
人工智能·时间序列
eve杭20 小时前
网络安全细则[特殊字符]
大数据·人工智能·5g·网络安全
图学习的小张21 小时前
Windows安装mamba全流程(全网最稳定最成功)
人工智能·windows·深度学习·语言模型
lisw0521 小时前
数据科学与AI的未来就业前景如何?
人工智能·机器学习·软件工程