机器学习时候必须要分为训练集、验证集和测试集嘛

在机器学习中,为了准确评估模型的性能和找到最佳的超参数配置,通常将数据集划分为训练集、验证集和测试集。在这种情况下,验证集用于调参和模型选择,而测试集则用于最终的模型评估。

具体流程如下:

  1. 划分数据集:将数据集划分为训练集、验证集和测试集。一般三者比例是0.8:0.1:0.1或者0.6:0.2:0.2。

  2. 训练模型:使用训练集训练模型,并根据验证集上的性能指标进行调参和模型选择。例如,可以尝试不同的超参数组合,选择在验证集上性能最好的模型。

  3. 模型评估:在完成调参和模型选择后,使用测试集对最终选定的模型进行评估。测试集提供了一个客观的度量,用于衡量模型在未见过的数据上的泛化能力。

通过将测试集与验证集分开,可以避免在模型选择过程中过度拟合验证集,并获得更准确的模型性能估计。这样可以确保对模型的评估是基于未直接与模型相关联的数据进行的。

重要的是要注意,在整个调参和模型选择的过程中,测试集应该被严格保留,不参与任何形式的调优和选择。这样可以确保测试集的独立性,并对最终的模型性能提供一个真实的估计。

模板代码:

将数据集划分为训练集、验证集和测试集,比例是0.8:0.1:0.1。

复制代码
from sklearn.model_selection import train_test_split

#0.8:0.1:0.1 划分为训练集、验证集和测试集
# 将数据分为训练集和剩余数据(包括验证集和测试集)
X_train, X_remaining, y_train, y_remaining = train_test_split(X, y, test_size=0.2, random_state=0)
# 将剩余数据分为验证集和测试集
X_val, X_test, y_val, y_test = train_test_split(X_remaining, y_remaining, test_size=0.5, random_state=0)
相关推荐
实在智能RPA2 分钟前
金融行业财务审核自动化工具推荐:2026企业级AI Agent与智能合规选型指南
人工智能·ai·金融·自动化
热爱生活的五柒19 分钟前
深度学习大幅度提高准确率方法,本人亲测,调参方法,大幅度提升准确率方法(极其重要!!!多次看!0430)
人工智能·深度学习
FlagOS智算系统软件栈19 分钟前
众智 FlagOS Day0 实现 DeepSeek-V4 八芯适配:1.6T & 284B双模型,多元算力开箱即用
人工智能
Agent产品评测局20 分钟前
生产排期与MES/ERP系统打通,实操方法详解 —— 2026企业级智能体自动化选型与实战指南
java·运维·人工智能·ai·chatgpt·自动化
kft131421 分钟前
AI 驱动测试 2.0:当测试智能体成为你的“超级 QA“
大数据·人工智能·elasticsearch
启效云28 分钟前
启效云战略升级:本体论落地 AI 原生应用智能体,打造中国版 Palantir 数字基座
人工智能·低代码·软件开发·低代码开发·零码化编辑器
jarvisuni28 分钟前
GLM5.1 降智了?国模思考强度研究!
人工智能·ai编程
IT_陈寒43 分钟前
SpringBoot自动配置的坑差点让我加班到天亮
前端·人工智能·后端
亿信华辰软件1 小时前
睿治Agent数据治理平台重磅发布:数据治理大脑+全栈Agent,以AI重构数据治理全流程
大数据·人工智能
源码老李1 小时前
独立游戏AI音乐指南:用Suno AI让游戏拥有灵魂
人工智能·游戏·ai编程