机器学习——KNN超参数

sklearn.model_selection.GridSearchCV 是 scikit-learn 中用于超参数调优的核心工具,通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍:


一、功能概述

GridSearchCV 在指定参数网格上穷举所有可能的超参数组合,通过交叉验证评估每组参数的性能,最终选择最优参数组合。其核心价值在于:

  1. 自动化调参 :替代手动参数调试,提升效率3
  2. 交叉验证支持:通过 K 折交叉验证减少过拟合风险,评估结果更可靠。

二、核心参数说明

参数 类型 作用
estimator 估计器对象 需调参的模型(如 SVC()RandomForestClassifier()
param_grid 字典或列表 参数名称(字符串)为键,候选参数值列表为值(如 {'C': [1,10], 'kernel': ['linear','rbf']}
scoring 字符串/可调用对象 评估指标(如 'accuracy''roc_auc'),默认使用模型的 score() 方法1013
cv int/交叉验证生成器 交叉验证折数(默认 5 折),或自定义数据划分策略28
n_jobs int 并行任务数(-1 表示使用所有 CPU 核)

三、主要属性

调用 fit() 方法后可通过以下属性获取结果:

  • best_score_:交叉验证中的最高得分。
  • best_params_ :最优参数组合(如 {'C': 10, 'kernel': 'rbf'})。
  • cv_results_:详细结果字典,包含每组参数的平均得分、标准差等。

四、工作流程

  1. 数据划分:原始数据分为训练集和测试集,训练集进一步通过 K 折交叉验证划分为子集。
  2. 参数组合生成 :根据 param_grid 生成所有可能的超参数组合(如 2×2 网格生成 4 组参数。
  3. 交叉验证评估:每组参数在 K 折数据上训练并验证,计算平均得分。
  4. 最优模型选择 :选择平均得分最高的参数组合,最终在完整训练集上训练模型8

五、代码演示

1、手动调参(循环调参)

python 复制代码
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

#加载数据集
iris = load_iris()
x = iris.data
y = iris.target

#划分数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=233, stratify=y)

#分类
from sklearn.neighbors import KNeighborsClassifier

#设置默认参数
neigh = KNeighborsClassifier(
    n_neighbors=3,
    weights='distance',#'uniform',
    p = 2
)
#适配参数
neigh.fit(x_train, y_train)
#评估模型
neigh.score(x_test, y_test) #结果:0.9777777777777777


#自动设参(主要遍历每个参数,找出最佳结果的参数)
best_score = -1
best_n  = -1
best_weight = ''
best_p = -1

for n in range(1, 20):
    for weight in ['uniform', 'distance']:
        for p in range(1, 7):
            neigh = KNeighborsClassifier(
                n_neighbors=n,
                weights=weight,
                p = p
            )
            neigh.fit(x_train, y_train)
            score = neigh.score(x_test, y_test)
            
            if score > best_score:
                best_score = score
                best_n = n
                best_weight = weight
                best_p = p

print("n_neighbors:", best_n)
print("weights:", best_weight)
print("p:", best_p)
print("score:", best_score)

#结果:n_neighbors: 5
#weights: uniform
#p: 2
#score: 1.0

2、KNN-sklearn.model_selection.GridSearchCV调参

python 复制代码
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

#加载数据集
iris=load_iris()
x=iris.data
y=iris.target

#划分数据集(7:3)
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=233, stratify=y)

#设置参数范围
params = {
    'n_neighbors': [n for n in range(1, 20)],
    'weights': ['uniform', 'distance'],
    'p': [p for p in range(1, 7)]
}

#定义调参对象
grid = GridSearchCV(
    estimator=KNeighborsClassifier(),
    param_grid=params,
    n_jobs=-1
)

#适配参数
grid.fit(x_train, y_train)

#打印最佳参数
print(grid.best_params_)

#输出预测值
print(grid.best_estimator_.predict(x_test))

#模型评估
print(grid.best_estimator_.score(x_test, y_test))
相关推荐
Salt_072810 小时前
DAY 37 MLP 神经网络的训练
人工智能·python·深度学习·神经网络·机器学习
一水鉴天10 小时前
整体设计 定稿 之6 完整设计文档讨论及定稿 之3 整体设计原则(原型-过程-模块三阶联动体系)
前端·数据库·人工智能
RPA机器人就选八爪鱼10 小时前
银行业流程自动化升级:RPA 机器人赋能金融数智转型
大数据·人工智能·机器人·自动化·rpa
创客匠人老蒋10 小时前
创客匠人:知识IP进阶之路,从“想做很多”到“只做一个爆品”
人工智能·创客匠人全球ip+ai高峰论坛·全球创始人ip+ai万人峰会
Winwoo10 小时前
AI Commit:拯救词穷,自动生成 Git Message
人工智能·程序员
花花Binki10 小时前
大模型你别再失忆了!你尔多隆吗?
人工智能
沛沛老爹10 小时前
Web开发者快速上手AI Agent:基于提示工程的旅游攻略系统实战
前端·人工智能·ai·agent·react·旅游攻略
小脉传媒GEO10 小时前
GEO优化数据统计系统DeepAnaX系统详细介绍:构建企业级AI数据智能分析平台
人工智能·信息可视化
Coovally AI模型快速验证10 小时前
是什么支撑L3自动驾驶落地?读懂AI驾驶与碰撞预测
人工智能·深度学习·目标检测·机器学习·计算机视觉·自动驾驶
大、男人10 小时前
FastMCP高级特性之Proxy Servers(代理服务)
人工智能·fastmcp