机器学习-模型验证

寒月霜华2025-09-14 23:24

验证泛化误差

在一个数据集上估计误差，数据集只能使用一次
验证数据集 ：可以被使用多次
基本是训练数据集中的一部分
当使用"test"时，大多数时候指的是验证数据集

生成验证数据集方法

1、数据随机分入训练集或验证集

总是随机选n%的数据作为验证集

n=50，40，30，20，10
当分离非独立同分布的数据时要额外注意

时序性数据：房价、股票价格等
验证集应该在训练集之后
属于同一组的样例：相同人的照片
在组之间分
不平衡的数据
对小的类采样率要高
2、K折交叉验证
适用于数据不充足的数据
算法：
将数据集分成K份
对i=1，2，...，K
使用第i份数据作为验证集，其他作为训练集
一般K=5或10

常见错误

90%以上极好的结果是由于bug存在
验证集中有训练集的样本
原始数据中有重复的数据
在数据融合时常发生：将从搜索引擎中找到的图片用于验证模型
信息泄露
经常发生于非独立同分布的数据：用未来预测过去

上一篇：域格YM310 X09移芯CAT1模组HTTPS连接服务器

下一篇：Linux笔记---基于HTTP协议搭建一个简单的Web服务器

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI科技热点日报 | 2026年07月01日 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结