模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集:训练集是一组训练数据。

样本:一组数据中一个数据

特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。

验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。

测试集:用于模型构建结束,验证最终模型的性能。

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据

2、语音:序列数据。非结构化数据

3、文本:序列数据。非结构化数据

4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的

方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等


四、偏差与方差





相关推荐
小蜗子2 分钟前
Multi‐modal knowledge graph inference via media convergenceand logic rule
人工智能·知识图谱
SpikeKing15 分钟前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
黄焖鸡能干四碗44 分钟前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
44 分钟前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_1 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习
攻城狮_Dream1 小时前
“探索未来医疗:生成式人工智能在医疗领域的革命性应用“
人工智能·设计·医疗·毕业
学习前端的小z2 小时前
【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用
人工智能·chatgpt·aigc
埃菲尔铁塔_CV算法2 小时前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR2 小时前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️2 小时前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习