机器学习--数据集的标准化和归一化算法;随机森林

标准化(Standardization):(原始数据-平均值)/ 标准差

归一化/规范化(Normalization):(原始数据-数据中的最小值)/(数据中的最大值-数据中的最小值)

在把数据给到算法之前,先将原始数据分成训练集(80%)和测试集(20%),我们会对训练数据集进行标准化或归一化,利用训练数据集得到的均值和标准差或者最小值、最大值来进行计算。训练结束后,我们会用测试数据集去测试模型,我们要对测试数据集进行标准化或者归一化。我们要用训练数据集得到的均值、标准化或者最小值、最大值去进行测试数据集的标准化或者归一化才正确。

随机森林

样本随机采样 横着分----构建森林模型时

1.子数据集样本多样性

2.袋外样本(未被抽到样本):可以用于模型最后的验证阶段

3.提升随机森林的鲁棒性

用这种抽取方法,抽取三个子数据集,将三个子数据集分别给到随森林中的三棵决策树,去训练,训练完毕后,当用一条测试样本进行测试的时候,假设三棵决策树给出了各自的分类结果,进入群体决策阶段,群体决策方式:分类问题:用投票方式,少数服从多数;回归问题:计算平均值

特征随机采样 竖着分(随机抽取几个特征)---每个书进行分裂时

第一种:数据集大

第二种:分类问题

相关推荐
阿明Drift11 分钟前
用 RAG 搭建一个 AI 小说问答系统
前端·人工智能
朱龙凯15 分钟前
LangChain学习笔记
人工智能
橘颂TA16 分钟前
【剑斩OFFER】算法的暴力美学——丢失的数字
数据结构·算法·leetcode·结构与算法
努力的白熊嗨18 分钟前
大文件 Hash 计算:Web Worker 并行优化的原理与局限性
javascript·算法
飞哥数智坊27 分钟前
Cursor 2.1 发布实测:计划能点了,审查能用了,CR 花多少?我也替你试了
人工智能·ai编程·cursor
凯子坚持 c28 分钟前
Doubao-Seed-Code模型深度剖析:Agentic Coding在Obsidian插件开发中的应用实践
网络·人工智能
CoovallyAIHub36 分钟前
存储风暴下的边缘智能韧性:瑞芯微RK3588如何将供应链挑战转化为市场机遇
深度学习·算法·计算机视觉
iFlow_AI39 分钟前
iFlow CLI快速搭建Flutter应用记录
开发语言·前端·人工智能·flutter·ai·iflow·iflow cli
杜子不疼.41 分钟前
【C++】解决哈希冲突的核心方法:开放定址法 & 链地址法
c++·算法·哈希算法