模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集:训练集是一组训练数据。

样本:一组数据中一个数据

特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。

验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。

测试集:用于模型构建结束,验证最终模型的性能。

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据

2、语音:序列数据。非结构化数据

3、文本:序列数据。非结构化数据

4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的

方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等


四、偏差与方差





相关推荐
周名彥5 分钟前
### 基于CP++的天元算盘系统“长度-长“定义及工程实现方案
人工智能·去中心化·知识图谱·量子计算·agi
AMiner:AI科研助手5 分钟前
AI如何重新定义研究?以AMiner沉思为例讲透Deep Research
人工智能·glm·智谱·深度调研
数字孪生家族8 分钟前
以视频孪生融合空间智能,打造智慧城市领域物联感知与 AI 应用标杆案例
人工智能·智慧城市·视频孪生智慧交通·空间智能应用·视频孪生能源·数字乡村建设
Deepoch10 分钟前
智能清洁新纪元:移动式收垃圾机器人如何重塑城市环卫服务体系
人工智能·机器人·具身模型·deepoc·环卫机器人
ZEGO即构开发者11 分钟前
AI降噪,AI打分,AI唱歌?在线KTV+AI,让每一次欢唱“声”机勃勃
人工智能·在线ktv
CoovallyAIHub11 分钟前
200亿美元“反向收购雇佣”?老黄天价应对谷歌TPU压力
深度学习·算法·计算机视觉
南山安14 分钟前
Qoder:CLI与IDE,未来编程的双引擎模式
人工智能
其美杰布-富贵-李14 分钟前
TensorBoard 与 WandB 在 PyTorch Lightning 中的完整指南
人工智能·pytorch·python·监控·调优
冬奇Lab16 分钟前
RAG完全指南:从"死记硬背"到"开卷考试"的AI进化之路
人工智能·llm
水境传感 张园园18 分钟前
土壤蒸渗仪:土壤水分动态的“记录仪”
人工智能