模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集:训练集是一组训练数据。

样本:一组数据中一个数据

特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。

验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。

测试集:用于模型构建结束,验证最终模型的性能。

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据

2、语音:序列数据。非结构化数据

3、文本:序列数据。非结构化数据

4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的

方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等


四、偏差与方差





相关推荐
与火星的孩子对话1 分钟前
Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发
人工智能·unity·c#·游戏引擎·宠物·lipsync
Data-Miner12 分钟前
35页AI应用PPT《DeepSeek如何赋能职场应用》DeepSeek本地化部署与应用案例合集
人工智能
KangkangLoveNLP13 分钟前
Llama:开源的急先锋
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·llama
白熊18818 分钟前
【通用智能体】Serper API 详解:搜索引擎数据获取的核心工具
人工智能·搜索引擎·大模型
云卓SKYDROID27 分钟前
无人机屏蔽与滤波技术模块运行方式概述!
人工智能·无人机·航电系统·科普·云卓科技
小oo呆38 分钟前
【自然语言处理与大模型】向量数据库技术
数据库·人工智能·自然语言处理
RuizhiHe38 分钟前
从零开始实现大语言模型(十五):并行计算与分布式机器学习
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
水花花花花花41 分钟前
NLP基础
人工智能·自然语言处理
Tiny番茄42 分钟前
Text models —— BERT,RoBERTa, BERTweet,LLama
人工智能·自然语言处理·bert
苹果企业签名分发1 小时前
火山引擎AI大模型
人工智能