【Python机器学习】算法链与管道——利用网格搜索选择使用哪个模型

我们可以进一步将GridSearchCV和Pipeline结合起来:还可以搜索管道中正在执行的实际步骤(比如用StandardScaler还是用MinMaxScaler)。这样会导致更大的搜索空间,应该予以仔细考虑。

尝试所有可能的解决方案,通常并不是一种可行的机器学习策略。但下面是一个例子:在iris数据集上比较RandomForestClassifier和SVC。我们知道,SVC可能需要对数据进行缩放,所以我们还需要搜索是使用StandardScaler还是不使用预处理。我们知道,RandomForestClassifier不需要预处理。我们先定义管道。这里我们显式地对步骤命名。需要两个步骤,一个用于预处理,然后是一个分类器。我们可以用SVC和StandardScaler来将其实例化:

python 复制代码
pipe=Pipeline(
    [('preprocessing',StandardScaler()),('classifier',SVC())]
)

现在我们可以定义需要搜索的param_grid。我们希望classifier是RandomForestClassifier或SVC。由于这两种分类器需要调节不同的参数,并且需要不同的预处理,所以我们可以使用搜索网格列表。

为了将一个估计器分配给一个步骤,我们使用步骤名称作为参数名称。如果我们想跳过管道中的某个步骤,则可以将该步骤设置为None:

python 复制代码
param_grid=[
    {
        'classifier':[SVC()],
        'preprocessing':[StandardScaler(),None],
        'classifier__gamma':[0.001,0.01,0.1,1,10,100],
        'classifier__C':[0.001,0.01,0.1,1,10,100]
    },
    {
        'classifier':[RandomForestClassifier(n_estimators=100)],
        'preprocessing':[None],
        'classifier__max_features':[1,2,3]
    }
]

现在,我们将网格搜索实例化,并在数据集上运行:

python 复制代码
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0)
grid=GridSearchCV(pipe,param_grid=param_grid,cv=5)
grid.fit(X_train,y_train)
print('最佳模型参数:{}'.format(grid.best_params_))
print('最佳交叉验证分数:{}'.format(grid.best_score_))
print('最佳模型在测试集精度:{}'.format(grid.score(X_test,y_test)))

可以看到,网格搜索后的结果,最佳模型是SVC、StandardScaler预处理,在C=100和gamma=0.01时的结果最好。

相关推荐
Redamancy_Xun1 分钟前
开源软件兼容性可信量化分析
java·开发语言·程序人生·网络安全·测试用例·可信计算技术
B站计算机毕业设计超人13 分钟前
计算机毕业设计hadoop+spark+hive民宿推荐系统 酒店推荐系统 民宿价格预测 酒店价格 预测 机器学习 深度学习 Python爬虫 HDFS集群
大数据·python·机器学习·spark·课程设计·数据可视化·推荐算法
ZLRRLZ14 分钟前
【C++】多态
开发语言·c++
AIGC大时代24 分钟前
如何判断一个学术论文是否具有真正的科研价值?ChatGPT如何提供帮助?
大数据·人工智能·物联网·chatgpt·aigc
计算机徐师兄26 分钟前
Python基于Django的web漏洞挖掘扫描技术的实现与研究(附源码,文档说明)
python·django·漏洞扫描·web漏洞挖掘扫描·python django·python漏洞挖掘扫描技术
m0_7482466126 分钟前
【论文投稿】Python 网络爬虫:探秘网页数据抓取的奇妙世界
开发语言·爬虫·python
minstbe31 分钟前
AI开发 - 算法基础 递归 的概念和入门(二)汉诺塔问题 递归的应用和使用注意 - Python
开发语言·python·算法
web147862107231 小时前
Python毕业设计选题:基于django+vue的疫情数据可视化分析系统
python·信息可视化·课程设计
两水先木示1 小时前
【Unity3D】ECS入门学习(九)SystemBase
学习·unity·ecs
岁月如歌,青春不败1 小时前
HMSC联合物种分布模型
开发语言·人工智能·python·深度学习·r语言