模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集:训练集是一组训练数据。

样本:一组数据中一个数据

特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。

验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。

测试集:用于模型构建结束,验证最终模型的性能。

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据

2、语音:序列数据。非结构化数据

3、文本:序列数据。非结构化数据

4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的

方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等


四、偏差与方差





相关推荐
无锡布里渊6 分钟前
分布式光纤声波振动与AI的深度融合:开启智慧感知新时代
人工智能·温度监测·线性感温火灾监测·线型感温火灾探测器·光纤振动das·防外破·分布式光纤声波振动
Yolo566Q15 分钟前
基于PyTorch深度学习遥感影像地物分类与目标检测、分割及遥感影像问题深度学习优化实践技术应用
pytorch·深度学习·分类
阿里云云原生41 分钟前
Qoder 负责人揭秘:Qoder 产品背后的思考与未来发展
人工智能
岁月宁静1 小时前
Vue3.5 + SSE 构建高可用 AI 聊天交互层 ——chat.js 模块架构与实现
前端·vue.js·人工智能
l12345sy1 小时前
Day31_【 NLP _1.文本预处理 _(3)文本数据分析】
人工智能·自然语言处理·数据分析
精灵vector1 小时前
构建自定义AI客户支持助手——LangGraph 中断机制
人工智能·python
算家计算1 小时前
DeepSeek发布新模型!采用全新稀疏注意力架构设计,与国产芯片协同优化
人工智能·开源·deepseek
大囚长2 小时前
从AI角度深入解析和论述哲学的终极答案‘语言即世界‘
人工智能·搜索引擎
精致先生2 小时前
多模态PDF解析
pdf·大模型·rag
北京地铁1号线2 小时前
机器学习笔试选择题:题组2
人工智能·算法·机器学习