模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

一、数据集划分

定义

数据集:训练集是一组训练数据。

样本:一组数据中一个数据

特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。

验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。

测试集:用于模型构建结束,验证最终模型的性能。

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据

2、语音:序列数据。非结构化数据

3、文本:序列数据。非结构化数据

4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的

方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等


四、偏差与方差





相关推荐
xinxiyinhe14 分钟前
GitHub上英语学习工具的精选分类汇总
人工智能·deepseek·学习英语精选
ZStack开发者社区36 分钟前
全球化2.0 | ZStack举办香港Partner Day,推动AIOS智塔+DeepSeek海外实践
人工智能·云计算
未来智慧谷1 小时前
DeepSeek大模型在政务服务领域的应用
大模型·政务·deepseek
Spcarrydoinb2 小时前
基于yolo11的BGA图像目标检测
人工智能·目标检测·计算机视觉
kcarly2 小时前
DeepSeek 都开源了哪些技术?
开源·大模型·llm·deepseek
非ban必选2 小时前
spring-ai-alibaba第四章阿里dashscope集成百度翻译tool
java·人工智能·spring
是店小二呀2 小时前
AI前沿:资本狂潮下的技术暗战:巨头博弈、开源革命与生态重构
人工智能·重构·开源
snowfoootball3 小时前
基于 Ollama DeepSeek、Dify RAG 和 Fay 框架的高考咨询 AI 交互系统项目方案
前端·人工智能·后端·python·深度学习·高考
云和数据.ChenGuang3 小时前
机器学习之回归算法
人工智能·机器学习·回归
odoo中国3 小时前
深度学习 Deep Learning 第15章 表示学习
人工智能·深度学习·学习·表示学习