机器学习--数据集的标准化和归一化算法;随机森林

标准化(Standardization):(原始数据-平均值)/ 标准差

归一化/规范化(Normalization):(原始数据-数据中的最小值)/(数据中的最大值-数据中的最小值)

在把数据给到算法之前,先将原始数据分成训练集(80%)和测试集(20%),我们会对训练数据集进行标准化或归一化,利用训练数据集得到的均值和标准差或者最小值、最大值来进行计算。训练结束后,我们会用测试数据集去测试模型,我们要对测试数据集进行标准化或者归一化。我们要用训练数据集得到的均值、标准化或者最小值、最大值去进行测试数据集的标准化或者归一化才正确。

随机森林

样本随机采样 横着分----构建森林模型时

1.子数据集样本多样性

2.袋外样本(未被抽到样本):可以用于模型最后的验证阶段

3.提升随机森林的鲁棒性

用这种抽取方法,抽取三个子数据集,将三个子数据集分别给到随森林中的三棵决策树,去训练,训练完毕后,当用一条测试样本进行测试的时候,假设三棵决策树给出了各自的分类结果,进入群体决策阶段,群体决策方式:分类问题:用投票方式,少数服从多数;回归问题:计算平均值

特征随机采样 竖着分(随机抽取几个特征)---每个书进行分裂时

第一种:数据集大

第二种:分类问题

相关推荐
找方案2 分钟前
hello-agents 学习笔记:智能体发展史 —— 从符号逻辑到 AI 协作的进化之旅
人工智能·笔记·学习·智能体·hello-agents
skywalk81634 分钟前
Auto-Coder用Qwen3-Coder-30B-A3B-Instruct模型写一个学习汉字的项目
人工智能·学习·auto-coder
xwz小王子16 分钟前
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
学习·算法·机器人·跨实体
Alluxio18 分钟前
Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟
人工智能·分布式·机器学习·缓存·ai·oracle
木头左28 分钟前
高频交易中的LSTM模型实时数据流输入的设计与实现
人工智能·rnn·lstm
_Li.30 分钟前
机器学习-非度量方法
人工智能·机器学习·支持向量机
xiaoxiaoxiaolll31 分钟前
《Advanced Photonics Research》浙大团队提出混合逆向设计方法,实现太赫兹三通道模分/波分同时解复用
人工智能
paopao_wu32 分钟前
深度学习2:理解感知机
人工智能·深度学习
郑州光合科技余经理33 分钟前
海外国际版同城服务系统开发:PHP技术栈
java·大数据·开发语言·前端·人工智能·架构·php
跨境卫士苏苏33 分钟前
突围新品广告泥潭:亚马逊广告底层逻辑大重构
大数据·人工智能·算法·重构·亚马逊·防关联