机器学习——随机森林

前言

跟着b站补基础，视频链接：第四章：随机森林 1-随机森林算法原理_哔哩哔哩_bilibili

一、原理篇

1、集成算法

决策树使用到的树模型是单一的模型，而集成算法就是把单一的树模型做一个融合。

（1）Bagging

Bagging可以理解为训练多个树模型，在预测的时候将这多个树模型取平均。如下，M是指树模型的个数。

Bagging中的一种典型算法就是随机森林。

（2）Boosting

Boosting相当于提升算法。也就是先建立一棵树，在进行预测任务的时候，真实值是100，第一棵树预测为90，再加一棵树使得预测结果为95，继续加树使得结果为97，再继续加树使得预测值越来越靠近真实值，加树是为了提升其性能。

Boosting中的一种典型算法就是XGboost

（3）Stacking

Stacking是堆叠模型，其实就是把不同算法融合在一起。可以分阶段聚合多个分类或回归模型。

2、随机森林

Boosting全称为bootstrap aggregation，其实就是并行训练一些分类器。

随机森林作为典型的Boosting算法模型，如果有三颗树构成了森林，在分类任务中，如果三棵树预测的结果分别为A、B、B，则少数服从多数，最终的预测结果为B；在回归任务中，如果三棵树预测的结果分别为98、99、100，则计算平均数，最终的预测结果为99。

"随机森林"这里的重点在于随机，在构造树的时候使用的算法是一样的，使用的原始训练数据集也是同一份，那么为了获得多颗不同的树构造森林，就可以从下面几点入手：

（1）样本随机采样

例如第一颗树随机选择原始完整数据的80%进行训练，第二棵树也随机选择原始完整数据的80%进行训练.....这里随机性就保证了大概率下使用到的数据不完全一致，构造出来的树也不会完全一致。

（2）特征随机采样

例如第一颗树随机选择原始完整数据其中的6个特征进行训练，第二棵树也随机选择原始完整数据其中的6个特征进行训练.....

原始样本有多少以及特征的总数不重要，只要在构造森林的时候选择的时候进行"随机"操作，使得每颗树不一样即可，这样就能构造出随机森林了。

3、随机森林的优势

①它能够处理很高维度(feature很多)的数据，并且不用做特征选择；

②在训练完后，它能够给出哪些feature比较重要；

③容易做成并行化方法，速度比较快；

④可以进行可视化展示，便于分析。

如下，通过可视化结果可以迅速查看不同特征的重要程度。

简单介绍就是例如特征A，首先使用原始数据进行计算得到其原始预测值，之后可以进行修改该特征的数据计算噪音预测值，当噪音预测值的结果比原始预测值的结果要差得多的话说明这个特征比较重要，如果噪音预测值的结果跟原始预测值的结果差距不大甚至可能好那么一点点，说明这个特征就不怎么重要了。

4、树的个数

随机森林要有不同的树，那么树的个数要多少好呢？越多越好嘛？答案是否！不是树越多模型性能就一定越好，就像一个班级来了一位新同学，这一位同学有可能拉低了班级的平均分也有可能提高班级的平均分。【再次感慨一声：世界上并没有十全十美的东西】

5、小结

以上就是随机森林的大致介绍，简单概括就是：

（1）数据采样：从原始数据集中有放回地随机抽取多个子集。

（2）构建决策树：对每个子集训练一个决策树模型，树的每个节点在分裂时随机选择特征子集。

（3）集成预测：将所有决策树的预测结果通过投票或平均方式结合，生成最终的预测结果。

随机森林通过集成多个决策树，提升了模型的稳定性和泛化能力。

二、代码篇

1、数据集

这里依旧是使用iris数据集，该数据集包含150个样本，每个样本属于三种鸢尾花（Iris flower）类别之一：Setosa、Versicolor 和 Virginica。每个样本有四个特征，代表了花的不同测量值。数据集如下：

2、RandomForestClassifier

简单介绍一下分类模块RandomForestClassifier：

python 复制代码

class sklearn.ensemble.RandomForestClassifier(
    n_estimators=100, *,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='sqrt',
    max_leaf_nodes=None,
    min_impurity_decrease=0.0,
    bootstrap=True,
    oob_score=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False,
    class_weight=None,
    ccp_alpha=0.0,
    max_samples=None,
    monotonic_cst=None
)

参数解释：

n_estimators : 整数，默认值=100

随机森林中的树的数量。增大这个值通常可以提高模型的表现，但也会增加计算成本。

criterion : 字符串，默认值='gini'

衡量分裂质量的指标。可选值：

'gini'：使用基尼不纯度。

'entropy'：使用信息增益。

max_depth : 整数或None，默认值=None

每棵树的最大深度。深度越大，模型越复杂；如果为 None，树会生长到直到所有叶子节点都是纯的，或直到叶子节点包含的样本数少于 min_samples_split。

min_samples_split : 整数或浮点数，默认值=2

内部节点再划分所需的最小样本数。如果是浮点数，则表示最小样本数的一个比例。

min_samples_leaf : 整数或浮点数，默认值=1

叶子节点上最少样本数。如果是浮点数，则表示最小样本数的一个比例。

min_weight_fraction_leaf : 浮点数，默认值=0.0

一个叶子节点可以拥有的样本权重的最小加权值。

max_features : 字符串、整数或浮点数，默认值='sqrt'

在寻找最佳分裂点时考虑的特征数。可选值：

'auto'：等同于 'sqrt'。

'sqrt'：每次分裂时考虑特征总数的平方根。

'log2'：每次分裂时考虑特征总数的对数。

整数：每次分裂时考虑的特征数。

浮点数：表示考虑特征总数的一个比例。

max_leaf_nodes : 整数或None，默认值=None

最多叶子节点数。如果设定为 None，则叶子节点数不限。

min_impurity_decrease : 浮点数，默认值=0.0

节点分裂所需的最小不纯度减少量。

bootstrap : 布尔值，默认值=True

是否在构建树时使用自助法（bootstrap）抽样。

oob_score : 布尔值，默认值=False

是否使用袋外（out-of-bag）样本来估计泛化精度。

n_jobs : 整数或None，默认值=None

用于并行运算的CPU核心数。None表示使用所有可用的核心。

random_state : 整数、RandomState实例或None，默认值=None

控制随机数生成的种子，用于模型重现性。

verbose : 整数，默认值=0

控制日志的详细程度。

warm_start : 布尔值，默认值=False

是否使用上一次的训练结果继续训练模型。

class_weight : 字典、balanced、balanced_subsample或None，默认值=None

用于指定每个类的权重，平衡类间不平衡问题。

ccp_alpha : 浮点数，默认值=0.0

剪枝过程中的复杂度惩罚参数，值越大，剪枝越多。

max_samples : 整数或浮点数，默认值=None

如果 bootstrap=True，则指定用于构建每棵树的最大样本数。如果是浮点数，表示样本总数的比例。

monotonic_cst : 数组或None，默认值=None

指定特征的单调约束，1表示递增，-1表示递减，0表示无约束。

【参考链接：RandomForestClassifier --- scikit-learn 1.5.1 documentation】

3、基础sklearn实现

python 复制代码

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf.fit(X_train, y_train)

# 预测
y_pred = rf.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")

Accuracy: 1.00

4、GridSearchCV进行超参数调优

使用 GridSearchCV 进行超参数调优是一种系统地搜索最佳模型参数组合的技术。在机器学习模型中，超参数是那些在训练之前设置的参数（如决策树的最大深度或随机森林中的树的数量），它们会影响模型的性能。GridSearchCV 通过遍历给定的参数值组合，并对每个组合进行交叉验证，找到最优的参数设置。

python 复制代码

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化随机森林分类器
rf = RandomForestClassifier(random_state=42)

# 设置超参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# 使用GridSearchCV进行超参数调优
grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 获取最佳模型并预测
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test)

# 计算准确率
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")

Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 100}

Accuracy: 1.00