sklearn函数：train_test_split（分割训练集和测试集）

daijingxin2024-03-09 20:06

函数的功能是分割训练集和测试集

函数中参数的用法：

测试集的大小，如果是小数的话，值在（0,1）之间，表示测试集所占有的比例；

如果是整数，表示的是测试集的具体样本数；

如果train_size也是None的话，会有一个默认值0.25

和test_size一样，同上

这个参数表示随机状态，因为每次分割都是随机的，

设置为整数则每次分割不随机
注意：只有当shuffle=True时，random_state才起作用

是否重洗数据（洗牌），就是说在分割数据前，是否把数据打散重新排序这样子，看上面我们分割完的数据，都不是原始数据集的顺序，默认是要重洗的

这个要配合结果集使用，假设原始的结果集中有2种分类，A：B=1:2

我们在随机分配的时候，是无法保证训练集和测试集中的A与B的比例

这时候，就可以用这个参数了，设置stratify=y，就可以让测试集和训练集中的结果集也保证这种分布