机器学习--数据集的标准化和归一化算法；随机森林

松岛雾奈.2302025-11-24 10:38

标准化（Standardization)：（原始数据-平均值）/ 标准差

归一化/规范化（Normalization):（原始数据-数据中的最小值）/（数据中的最大值-数据中的最小值）

在把数据给到算法之前，先将原始数据分成训练集（80%）和测试集（20%），我们会对训练数据集进行标准化或归一化，利用训练数据集得到的均值和标准差或者最小值、最大值来进行计算。训练结束后，我们会用测试数据集去测试模型，我们要对测试数据集进行标准化或者归一化。我们要用训练数据集得到的均值、标准化或者最小值、最大值去进行测试数据集的标准化或者归一化才正确。

随机森林：

样本随机采样横着分----构建森林模型时

1.子数据集样本多样性

2.袋外样本（未被抽到样本）：可以用于模型最后的验证阶段

3.提升随机森林的鲁棒性

用这种抽取方法，抽取三个子数据集，将三个子数据集分别给到随森林中的三棵决策树，去训练，训练完毕后，当用一条测试样本进行测试的时候，假设三棵决策树给出了各自的分类结果，进入群体决策阶段，群体决策方式：分类问题：用投票方式，少数服从多数；回归问题：计算平均值

特征随机采样竖着分（随机抽取几个特征）---每个书进行分裂时

第一种：数据集大

第二种：分类问题