机器学习--数据集的标准化和归一化算法;随机森林

标准化(Standardization):(原始数据-平均值)/ 标准差

归一化/规范化(Normalization):(原始数据-数据中的最小值)/(数据中的最大值-数据中的最小值)

在把数据给到算法之前,先将原始数据分成训练集(80%)和测试集(20%),我们会对训练数据集进行标准化或归一化,利用训练数据集得到的均值和标准差或者最小值、最大值来进行计算。训练结束后,我们会用测试数据集去测试模型,我们要对测试数据集进行标准化或者归一化。我们要用训练数据集得到的均值、标准化或者最小值、最大值去进行测试数据集的标准化或者归一化才正确。

随机森林

样本随机采样 横着分----构建森林模型时

1.子数据集样本多样性

2.袋外样本(未被抽到样本):可以用于模型最后的验证阶段

3.提升随机森林的鲁棒性

用这种抽取方法,抽取三个子数据集,将三个子数据集分别给到随森林中的三棵决策树,去训练,训练完毕后,当用一条测试样本进行测试的时候,假设三棵决策树给出了各自的分类结果,进入群体决策阶段,群体决策方式:分类问题:用投票方式,少数服从多数;回归问题:计算平均值

特征随机采样 竖着分(随机抽取几个特征)---每个书进行分裂时

第一种:数据集大

第二种:分类问题

相关推荐
power 雀儿2 分钟前
掩码(Mask)机制 结合 多头自注意力函数
算法
SEO_juper5 分钟前
2026内容营销破局指南:告别流量内卷,以价值赢信任
人工智能·ai·数字营销·2026
会叫的恐龙6 分钟前
C++ 核心知识点汇总(第六日)(字符串)
c++·算法·字符串
初恋叫萱萱8 分钟前
数据即燃料:用 `cann-data-augmentation` 实现高效训练预处理
人工智能
小糯米60117 分钟前
C++顺序表和vector
开发语言·c++·算法
一战成名99617 分钟前
CANN 仓库揭秘:昇腾 AI 算子开发的宝藏之地
人工智能
hnult23 分钟前
2026 在线培训考试系统选型指南:核心功能拆解与选型逻辑
人工智能·笔记·课程设计
A小码哥24 分钟前
AI 设计时代的到来:从 PS 到 Pencil,一个人如何顶替一个团队
人工智能
AIGCmitutu30 分钟前
PS 物体底部阴影怎么做?3 步做出自然逼真的投影效果
人工智能·电子商务·photoshop·ps·美工
开源技术32 分钟前
Claude Opus 4.6 发布,100万上下文窗口,越贵越好用
人工智能·python