模型训练之数据集

奇睿海2024-07-07 13:32

我们知道人工智能的四大要素：数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集：训练集是一组训练数据。

样本：一组数据中一个数据

特征：反映样本在某方面的表现、属性或性质事项

训练集：用来构建机器学习模型，机器通过数据来确定模型参数的过程称之为学习（训练）。

验证集：辅助构建模型，用于在构建过程中评估模型，从而调整模型超参数。

测试集：用于模型构建结束，验证最终模型的性能。

二、数据类型

1、图像、视频：一般用卷积神经网络来处理，非结构化数据

2、语音：序列数据。非结构化数据

3、文本：序列数据。非结构化数据

4、时序数据：序列数据。一般用循环神经网络来处理

三、数据集分割

目的：为了保证训练集、验证集、测试集是同分布的

方法：留出法、K-折线交叉验证、Holdout交叉验证、自助法等

四、偏差与方差

上一篇：[C++][CMake][嵌套的CMake]详细讲解

下一篇：Nginx-http_limit_req_module模块

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03KGG转MP3工具|非KGM文件|解密音频 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南