1、为什么需要交叉验证
交叉验证目的:为了让被评估的模型更加准确可信
在机器学习中,模型的性能评估至关重要。如果仅使用训练数据进行模型训练,然后直接在测试集上进行评估,可能会出现模型对训练数据过拟合的问题。过拟合的模型在训练集上表现良好,但在未知数据上泛化能力较差。为了解决这个问题,我们需要交叉验证来更准确地评估模型的泛化能力。
1.1 提高模型泛化能力
通过交叉验证,我们可以确保模型在多个不同的数据子集上都能保持较好的性能,从而提高模型的泛化能力。
1.2 数据利用更充分
交叉验证使得数据被更充分地利用,每一部分数据都既用于训练也用于验证,提高了评估结果的可靠性。
2、什么是交叉验证(cross validation)
交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。
2.1 分析
我们之前知道数据分为训练集和测试集,但是为了让从训练得到模型结果更加准确。做以下处理
- 训练集:训练集+验证集
- 测试集:测试集
问题:那么这个只是对于参数得出更好的结果,那么怎么选择或者调优参数呢?
2.2 交叉验证的类型
- 留一法交叉验证(LOOCV):每次留下一个样本作为验证集,其余作为训练集,适用于数据量非常小的情况。
- k折交叉验证:将数据集分为k份,每次取一份作为验证集,其余k-1份作为训练集,重复k次。
- 分层交叉验证:在分割数据时保持原始数据中各类别比例的交叉验证方法。
3、超参数搜索-网格搜索(Grid Search)
通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。
3.1 模型选择与调优
sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
- 对估计器的指定参数值进行详尽搜索
- estimator:估计器对象
- param_grid:估计器参数(dict){"n_neighbors":[1,3,5]}
- cv:指定几折交叉验证
- fit:输入训练数据
- score:准确率
- 结果分析:
最佳参数:best_params_
print("最佳参数:\n", estimator.best_params_)
最佳结果:best_score_
print("最佳结果:\n", estimator.best_score_)
最佳估计器:best_estimator_
print("最佳估计器:\n", estimator.best_estimator_)
交叉验证结果:cv_results_
print("交叉验证结果:\n", estimator.cv_results_)
3.2鸢尾花案例增加K值调优
python
def knn_iris_gscv():
"""
用KNN算法对鸢尾花进行分类,添加网格搜索和交叉验证
:return:
"""
# 1)获取数据
iris = load_iris()
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
# 3)特征工程:标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
# 4)KNN算法预估器
estimator = KNeighborsClassifier()
# 加入网格搜索与交叉验证
# 参数准备
param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
estimator.fit(x_train, y_train)
# 5)模型评估
# 方法1:直接比对真实值和预测值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)
# 方法2:计算准确率
score
4、交叉验证的优势与局限性
4.1 优势
- 降低过拟合风险:通过多次交叉验证,模型在多个子集上的表现平均化,减少了偶然性,提高了模型的泛化能力。
- 数据高效利用:相比于简单的训练集测试集划分,交叉验证能够更高效地利用有限的数据进行模型训练和评估。
- 模型稳定性评估:交叉验证可以给出模型在不同数据子集上的性能表现,有助于评估模型的稳定性。
4.2 局限性
- 计算成本高:尤其是对于大数据集和复杂模型,交叉验证需要多次训练和验证,计算成本较高。
- 不适用于时间序列数据:交叉验证通常假设数据是独立同分布的,而时间序列数据具有时间依赖性,直接应用交叉验证可能会导致数据泄露。
- 可能不适合不平衡数据集:在类别不平衡的情况下,交叉验证可能会使得某些类别在验证集中出现频率过低,影响模型评估的准确性。
5、交叉验证的实践步骤
5.1 数据预处理
在进行交叉验证之前,需要对数据进行预处理,包括数据清洗、特征选择、特征缩放等步骤,以确保数据质量。
5.2 数据划分
根据交叉验证的类型,将数据集划分为训练集和验证集。对于k折交叉验证,通常将数据集等分为k份。
5.3 模型训练与验证
对于每一折数据,使用相应的训练集训练模型,然后在验证集上进行验证,记录模型性能。
5.4 参数调优
结合网格搜索等技术,对模型的超参数进行搜索和调优,选择在交叉验证中表现最好的参数组合。
5.5 模型评估
在所有交叉验证完成后,使用最优参数组合重新训练模型,并在独立的测试集上进行最终评估。
6、案例分析:鸢尾花数据集上的KNN算法调优
6.1 数据加载与划分
使用sklearn库中的鸢尾花数据集,首先加载数据,然后进行数据划分。
6.2 特征工程
对特征进行标准化处理,以消除不同量纲的影响。
6.3 KNN模型训练与交叉验证
设置不同的K值进行网格搜索,并结合交叉验证来评估每个K值的性能。
6.4 结果分析
输出最佳K值、对应的模型准确率、以及交叉验证的详细结果。
6.5 代码实现
以下是使用Python和sklearn实现KNN算法在鸢尾花数据集上进行交叉验证和网格搜索的完整代码:
python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def knn_iris_gscv():
# 1)获取数据
iris = load_iris()
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
# 3)特征工程:标准化
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)
# 4)KNN算法预估器
knn = KNeighborsClassifier()
# 5)网格搜索与交叉验证
param_grid = {'n_neighbors': list(range(1, 11))}
grid_search = GridSearchCV(knn, param_grid, cv=5)
grid_search.fit(x_train, y_train)
# 6)输出结果
print("最佳参数:", grid_search.best_params_)
print("最佳准确率:", grid_search.best_score_)
print("测试集准确率:", grid_search.score(x_test, y_test))
return None
knn_iris_gscv()
7、总结
交叉验证是评估机器学习模型性能的重要手段,它通过多次训练和验证来提高模型评估的准确性和可靠性。结合网格搜索,可以有效地进行超参数调优,从而获得更好的模型性能。在实际应用中,应根据数据特性和需求选择合适的交叉验证方法和参数。