Python从0到100(六十):机器学习-模型选择与交叉验证

1、为什么需要交叉验证

交叉验证目的:为了让被评估的模型更加准确可信

在机器学习中,模型的性能评估至关重要。如果仅使用训练数据进行模型训练,然后直接在测试集上进行评估,可能会出现模型对训练数据过拟合的问题。过拟合的模型在训练集上表现良好,但在未知数据上泛化能力较差。为了解决这个问题,我们需要交叉验证来更准确地评估模型的泛化能力。

1.1 提高模型泛化能力

通过交叉验证,我们可以确保模型在多个不同的数据子集上都能保持较好的性能,从而提高模型的泛化能力。

1.2 数据利用更充分

交叉验证使得数据被更充分地利用,每一部分数据都既用于训练也用于验证,提高了评估结果的可靠性。

2、什么是交叉验证(cross validation)

交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。

2.1 分析

我们之前知道数据分为训练集和测试集,但是为了让从训练得到模型结果更加准确。做以下处理

  • 训练集:训练集+验证集
  • 测试集:测试集

    问题:那么这个只是对于参数得出更好的结果,那么怎么选择或者调优参数呢?

2.2 交叉验证的类型

  • 留一法交叉验证(LOOCV):每次留下一个样本作为验证集,其余作为训练集,适用于数据量非常小的情况。
  • k折交叉验证:将数据集分为k份,每次取一份作为验证集,其余k-1份作为训练集,重复k次。
  • 分层交叉验证:在分割数据时保持原始数据中各类别比例的交叉验证方法。

3、超参数搜索-网格搜索(Grid Search)

通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

3.1 模型选择与调优

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

  • 对估计器的指定参数值进行详尽搜索
  • estimator:估计器对象
  • param_grid:估计器参数(dict){"n_neighbors":[1,3,5]}
  • cv:指定几折交叉验证
  • fit:输入训练数据
  • score:准确率
  • 结果分析:
    最佳参数:best_params_
    print("最佳参数:\n", estimator.best_params_)
    最佳结果:best_score_
    print("最佳结果:\n", estimator.best_score_)
    最佳估计器:best_estimator_
    print("最佳估计器:\n", estimator.best_estimator_)
    交叉验证结果:cv_results_
    print("交叉验证结果:\n", estimator.cv_results_)

3.2鸢尾花案例增加K值调优

python 复制代码
def knn_iris_gscv():
    """
    用KNN算法对鸢尾花进行分类,添加网格搜索和交叉验证
    :return:
    """
    # 1)获取数据
    iris = load_iris()
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    # 3)特征工程:标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4)KNN算法预估器
    estimator = KNeighborsClassifier()
    # 加入网格搜索与交叉验证
    # 参数准备
    param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
    estimator.fit(x_train, y_train)
    # 5)模型评估
    # 方法1:直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)
    # 方法2:计算准确率
    score

4、交叉验证的优势与局限性

4.1 优势

  • 降低过拟合风险:通过多次交叉验证,模型在多个子集上的表现平均化,减少了偶然性,提高了模型的泛化能力。
  • 数据高效利用:相比于简单的训练集测试集划分,交叉验证能够更高效地利用有限的数据进行模型训练和评估。
  • 模型稳定性评估:交叉验证可以给出模型在不同数据子集上的性能表现,有助于评估模型的稳定性。

4.2 局限性

  • 计算成本高:尤其是对于大数据集和复杂模型,交叉验证需要多次训练和验证,计算成本较高。
  • 不适用于时间序列数据:交叉验证通常假设数据是独立同分布的,而时间序列数据具有时间依赖性,直接应用交叉验证可能会导致数据泄露。
  • 可能不适合不平衡数据集:在类别不平衡的情况下,交叉验证可能会使得某些类别在验证集中出现频率过低,影响模型评估的准确性。

5、交叉验证的实践步骤

5.1 数据预处理

在进行交叉验证之前,需要对数据进行预处理,包括数据清洗、特征选择、特征缩放等步骤,以确保数据质量。

5.2 数据划分

根据交叉验证的类型,将数据集划分为训练集和验证集。对于k折交叉验证,通常将数据集等分为k份。

5.3 模型训练与验证

对于每一折数据,使用相应的训练集训练模型,然后在验证集上进行验证,记录模型性能。

5.4 参数调优

结合网格搜索等技术,对模型的超参数进行搜索和调优,选择在交叉验证中表现最好的参数组合。

5.5 模型评估

在所有交叉验证完成后,使用最优参数组合重新训练模型,并在独立的测试集上进行最终评估。

6、案例分析:鸢尾花数据集上的KNN算法调优

6.1 数据加载与划分

使用sklearn库中的鸢尾花数据集,首先加载数据,然后进行数据划分。

6.2 特征工程

对特征进行标准化处理,以消除不同量纲的影响。

6.3 KNN模型训练与交叉验证

设置不同的K值进行网格搜索,并结合交叉验证来评估每个K值的性能。

6.4 结果分析

输出最佳K值、对应的模型准确率、以及交叉验证的详细结果。

6.5 代码实现

以下是使用Python和sklearn实现KNN算法在鸢尾花数据集上进行交叉验证和网格搜索的完整代码:

python 复制代码
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def knn_iris_gscv():
    # 1)获取数据
    iris = load_iris()
    
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
    
    # 3)特征工程:标准化
    scaler = StandardScaler()
    x_train = scaler.fit_transform(x_train)
    x_test = scaler.transform(x_test)
    
    # 4)KNN算法预估器
    knn = KNeighborsClassifier()
    
    # 5)网格搜索与交叉验证
    param_grid = {'n_neighbors': list(range(1, 11))}
    grid_search = GridSearchCV(knn, param_grid, cv=5)
    grid_search.fit(x_train, y_train)
    
    # 6)输出结果
    print("最佳参数:", grid_search.best_params_)
    print("最佳准确率:", grid_search.best_score_)
    print("测试集准确率:", grid_search.score(x_test, y_test))
    
    return None
knn_iris_gscv()

7、总结

交叉验证是评估机器学习模型性能的重要手段,它通过多次训练和验证来提高模型评估的准确性和可靠性。结合网格搜索,可以有效地进行超参数调优,从而获得更好的模型性能。在实际应用中,应根据数据特性和需求选择合适的交叉验证方法和参数。

相关推荐
励志成为嵌入式工程师6 分钟前
c语言简单编程练习9
c语言·开发语言·算法·vim
捕鲸叉36 分钟前
创建线程时传递参数给线程
开发语言·c++·算法
A charmer40 分钟前
【C++】vector 类深度解析:探索动态数组的奥秘
开发语言·c++·算法
Peter_chq43 分钟前
【操作系统】基于环形队列的生产消费模型
linux·c语言·开发语言·c++·后端
阡之尘埃1 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
记录成长java2 小时前
ServletContext,Cookie,HttpSession的使用
java·开发语言·servlet
前端青山2 小时前
Node.js-增强 API 安全性和性能优化
开发语言·前端·javascript·性能优化·前端框架·node.js
睡觉谁叫~~~2 小时前
一文解秘Rust如何与Java互操作
java·开发语言·后端·rust
音徽编程2 小时前
Rust异步运行时框架tokio保姆级教程
开发语言·网络·rust
观音山保我别报错2 小时前
C语言扫雷小游戏
c语言·开发语言·算法