如何用sklearn对随机森林调参

赵孝正2023-11-09 8:43

一、概述

sklearn是目前python中十分流行的用来实现机器学习的第三方包，其中包含了多种常见算法如：决策树，逻辑回归、集成算法（如随机森林）等等。

本文将使用sklearn自带的乳腺癌数据集，建立随机森林，并基于**泛化误差（Genelization Error）**与模型复杂度的关系来对模型进行调参，从而使模型获得更高的得分。

泛化误差是机器学习中，用来衡量模型在未知数据上的准确率 的指标，其与模型复杂度的关系如下图所示：

当模型复杂度不足时，机器学习不足，会出现欠拟合现象，泛化误差变大；当复杂度逐渐提高到最佳模型复杂度时，泛化误差会达到最低点（即最高准确度）；若复杂度仍在提高，泛化误差从最小值开始逐渐增大，出现过拟合现象。

因此，我们的目的，是通过不断调参来不断调整模型复杂度，尽可能地接近泛化误差最低点。