Python从0到100（六十）：机器学习-模型选择与交叉验证

1、为什么需要交叉验证

交叉验证目的：为了让被评估的模型更加准确可信

在机器学习中，模型的性能评估至关重要。如果仅使用训练数据进行模型训练，然后直接在测试集上进行评估，可能会出现模型对训练数据过拟合的问题。过拟合的模型在训练集上表现良好，但在未知数据上泛化能力较差。为了解决这个问题，我们需要交叉验证来更准确地评估模型的泛化能力。

1.1 提高模型泛化能力

通过交叉验证，我们可以确保模型在多个不同的数据子集上都能保持较好的性能，从而提高模型的泛化能力。

1.2 数据利用更充分

交叉验证使得数据被更充分地利用，每一部分数据都既用于训练也用于验证，提高了评估结果的可靠性。

2、什么是交叉验证(cross validation)

交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。

2.1 分析

我们之前知道数据分为训练集和测试集，但是为了让从训练得到模型结果更加准确。做以下处理

训练集：训练集+验证集
测试集：测试集

问题：那么这个只是对于参数得出更好的结果，那么怎么选择或者调优参数呢？

2.2 交叉验证的类型

留一法交叉验证(LOOCV)：每次留下一个样本作为验证集，其余作为训练集，适用于数据量非常小的情况。
k折交叉验证：将数据集分为k份，每次取一份作为验证集，其余k-1份作为训练集，重复k次。
分层交叉验证：在分割数据时保持原始数据中各类别比例的交叉验证方法。

3、超参数搜索-网格搜索(Grid Search)

通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

3.1 模型选择与调优

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

对估计器的指定参数值进行详尽搜索
estimator：估计器对象
param_grid：估计器参数(dict){"n_neighbors":[1,3,5]}
cv：指定几折交叉验证
fit：输入训练数据
score：准确率
结果分析：
最佳参数：best_params_
print("最佳参数：\n", estimator.best_params_)
最佳结果：best_score_
print("最佳结果：\n", estimator.best_score_)
最佳估计器：best_estimator_
print("最佳估计器:\n", estimator.best_estimator_)
交叉验证结果：cv_results_
print("交叉验证结果:\n", estimator.cv_results_)

3.2鸢尾花案例增加K值调优

python 复制代码

def knn_iris_gscv():
    """
    用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证
    :return:
    """
    # 1）获取数据
    iris = load_iris()
    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    # 3）特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4）KNN算法预估器
    estimator = KNeighborsClassifier()
    # 加入网格搜索与交叉验证
    # 参数准备
    param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
    estimator.fit(x_train, y_train)
    # 5）模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 方法2：计算准确率
    score

4、交叉验证的优势与局限性

4.1 优势

降低过拟合风险：通过多次交叉验证，模型在多个子集上的表现平均化，减少了偶然性，提高了模型的泛化能力。
数据高效利用：相比于简单的训练集测试集划分，交叉验证能够更高效地利用有限的数据进行模型训练和评估。
模型稳定性评估：交叉验证可以给出模型在不同数据子集上的性能表现，有助于评估模型的稳定性。

4.2 局限性

计算成本高：尤其是对于大数据集和复杂模型，交叉验证需要多次训练和验证，计算成本较高。
不适用于时间序列数据：交叉验证通常假设数据是独立同分布的，而时间序列数据具有时间依赖性，直接应用交叉验证可能会导致数据泄露。
可能不适合不平衡数据集：在类别不平衡的情况下，交叉验证可能会使得某些类别在验证集中出现频率过低，影响模型评估的准确性。

5、交叉验证的实践步骤

5.1 数据预处理

在进行交叉验证之前，需要对数据进行预处理，包括数据清洗、特征选择、特征缩放等步骤，以确保数据质量。

5.2 数据划分

根据交叉验证的类型，将数据集划分为训练集和验证集。对于k折交叉验证，通常将数据集等分为k份。

5.3 模型训练与验证

对于每一折数据，使用相应的训练集训练模型，然后在验证集上进行验证，记录模型性能。

5.4 参数调优

结合网格搜索等技术，对模型的超参数进行搜索和调优，选择在交叉验证中表现最好的参数组合。

5.5 模型评估

在所有交叉验证完成后，使用最优参数组合重新训练模型，并在独立的测试集上进行最终评估。

6、案例分析：鸢尾花数据集上的KNN算法调优

6.1 数据加载与划分

使用sklearn库中的鸢尾花数据集，首先加载数据，然后进行数据划分。

6.2 特征工程

对特征进行标准化处理，以消除不同量纲的影响。

6.3 KNN模型训练与交叉验证

设置不同的K值进行网格搜索，并结合交叉验证来评估每个K值的性能。

6.4 结果分析

输出最佳K值、对应的模型准确率、以及交叉验证的详细结果。

6.5 代码实现

以下是使用Python和sklearn实现KNN算法在鸢尾花数据集上进行交叉验证和网格搜索的完整代码：

python 复制代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def knn_iris_gscv():
    # 1）获取数据
    iris = load_iris()
    
    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
    
    # 3）特征工程：标准化
    scaler = StandardScaler()
    x_train = scaler.fit_transform(x_train)
    x_test = scaler.transform(x_test)
    
    # 4）KNN算法预估器
    knn = KNeighborsClassifier()
    
    # 5）网格搜索与交叉验证
    param_grid = {'n_neighbors': list(range(1, 11))}
    grid_search = GridSearchCV(knn, param_grid, cv=5)
    grid_search.fit(x_train, y_train)
    
    # 6）输出结果
    print("最佳参数：", grid_search.best_params_)
    print("最佳准确率：", grid_search.best_score_)
    print("测试集准确率：", grid_search.score(x_test, y_test))
    
    return None
knn_iris_gscv()

7、总结

交叉验证是评估机器学习模型性能的重要手段，它通过多次训练和验证来提高模型评估的准确性和可靠性。结合网格搜索，可以有效地进行超参数调优，从而获得更好的模型性能。在实际应用中，应根据数据特性和需求选择合适的交叉验证方法和参数。