机器学习--数据集的标准化和归一化算法;随机森林

标准化(Standardization):(原始数据-平均值)/ 标准差

归一化/规范化(Normalization):(原始数据-数据中的最小值)/(数据中的最大值-数据中的最小值)

在把数据给到算法之前,先将原始数据分成训练集(80%)和测试集(20%),我们会对训练数据集进行标准化或归一化,利用训练数据集得到的均值和标准差或者最小值、最大值来进行计算。训练结束后,我们会用测试数据集去测试模型,我们要对测试数据集进行标准化或者归一化。我们要用训练数据集得到的均值、标准化或者最小值、最大值去进行测试数据集的标准化或者归一化才正确。

随机森林

样本随机采样 横着分----构建森林模型时

1.子数据集样本多样性

2.袋外样本(未被抽到样本):可以用于模型最后的验证阶段

3.提升随机森林的鲁棒性

用这种抽取方法,抽取三个子数据集,将三个子数据集分别给到随森林中的三棵决策树,去训练,训练完毕后,当用一条测试样本进行测试的时候,假设三棵决策树给出了各自的分类结果,进入群体决策阶段,群体决策方式:分类问题:用投票方式,少数服从多数;回归问题:计算平均值

特征随机采样 竖着分(随机抽取几个特征)---每个书进行分裂时

第一种:数据集大

第二种:分类问题

相关推荐
慧知AI16 分钟前
Kimi 2.6 技术深度解析:5秒响应背后的架构突破
人工智能
卷卷说风控26 分钟前
单独一个工具再强,不如一套工具链协同|卷卷养虾记 · 十二篇
人工智能
黑金IT32 分钟前
vLLM本地缓存实战,重复提交直接复用不浪费算力
人工智能·缓存
七七powerful34 分钟前
运维养龙虾--Tmux 终端复用器完全指南:从入门到 AI Agent 远程操控
运维·服务器·人工智能
网域小星球38 分钟前
C 语言从 0 入门(十二)|指针与数组:数组名本质、指针遍历数组
c语言·算法·指针·数组·指针遍历数组
七夜zippoe38 分钟前
OpenClaw 飞书深度集成:文档操作
人工智能·飞书·集成·文档·openclaw
databook39 分钟前
从写代码到问问题:2026年,AI如何重构数据科学工作流
人工智能·后端·数据分析
深山技术宅44 分钟前
OpenClaw 系统架构深度解析
人工智能·ai·系统架构·openclaw
skilllite作者1 小时前
AI 自进化系统架构详解 (一):重新定义 L1-L3 等级,揭秘 OpenClaw 背后的安全边界
人工智能·安全·系统架构
m0_694845571 小时前
CRUD (Nestjsx)部署教程:自动生成RESTful接口
服务器·人工智能·后端·开源·自动化·restful