sklearn 中所有交叉验证数据集划分方式完整总结

一、总体分类(一共 6 大种)

sklearn 交叉验证划分全部来自:

from sklearn.model_selection import *

1. KFold(最基础 K 折交叉验证)

  • 用途:普通回归、分类任务
  • 特点
    • 均匀分成 K 份
    • 轮流 1 份测试,K-1 份训练
  • 不分层 → 类别不平衡时不推荐
python 复制代码
kf = KFold(n_splits=5, shuffle=True, random_state=42)

2. StratifiedKFold(分层 K 折)⭐⭐⭐⭐⭐

  • 用途分类任务、类别不平衡
  • 特点
    • 每折都保持类别比例
  • 分类任务首选!
python 复制代码
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

3. ShuffleSplit(随机打乱划分)

  • 用途 :想自定义训练/测试比例
  • 特点
    • 不分成均等份
    • test_size 自己定
  • 不分层
python 复制代码
ss = ShuffleSplit(n_splits=5, test_size=0.2, random_state=42)

4. StratifiedShuffleSplit(分层随机打乱)⭐⭐⭐⭐⭐

  • 用途分类 + 想自定义 test 比例
  • 你刚才用的就是这个!
  • n_splits=1 等价 train_test_split(stratify=y)
python 复制代码
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2)

5. GroupKFold / LeaveOneGroupOut(按分组划分)

  • 用途防止同一组数据出现在训练集和测试集
  • 例如:
    • 同一用户的数据
    • 同一患者的数据
    • 同一设备的数据
  • 避免数据泄露
python 复制代码
gkf = GroupKFold(n_splits=5)

6. TimeSeriesSplit(时间序列交叉验证)

  • 用途时间数据、股票、天气、时序预测
  • 不能打乱!
  • 未来数据不能用来训练过去
python 复制代码
tscv = TimeSeriesSplit(n_splits=5)

二、最实用的「选择指南」(背会这张表)

你的数据场景 应该用哪个划分?
普通回归任务 KFold
分类任务(均衡/不均衡) StratifiedKFold
分类任务 + 自定义 test 比例 StratifiedShuffleSplit
防止同一用户/患者泄露 GroupKFold
时间序列 TimeSeriesSplit
只想简单切一次 train/test train_test_split(stratify=y)

三、最最重要的 3 个(工作 99% 用这三个)

  1. StratifiedKFold → 分类 K 折(最常用)
  2. StratifiedShuffleSplit → 分类随机切分(你正在用)
  3. GroupKFold → 防止分组数据泄露

四、一句话终极总结

  • 回归 → KFold
  • 分类 → StratifiedKFold / StratifiedShuffleSplit
  • 分组数据 → GroupKFold
  • 时间数据 → TimeSeriesSplit

相关推荐
leo在掘金1 小时前
从DeepSeek 510亿融资到GitHub 33K Star开源项目:这周的技术生态发生了什么?
人工智能
小姜前线技术2 小时前
AI流式渲染打字机效果抖动?节流方案踩坑实录
人工智能
用户018349301692 小时前
AI对话状态管理:useReducer还是XState
人工智能
先锋部队2 小时前
给AI对话加「停止生成」按钮:abort SSE实战
人工智能
新新技术迷2 小时前
移动端H5接AI对话的坑:键盘顶起与滚动到底
人工智能
cup113 小时前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi005 小时前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
用户5191495848456 小时前
libcurl Headers API 释放后重利用漏洞:跨请求复用头句柄导致堆内存安全风险
人工智能·aigc