《零基础入门Spark》学习笔记 Day 17

模型训练-中

GBDT

用多棵决策树来拟合数据样本,但是,树与树之间是有依赖关系的,每一棵树的构建,都是基于前一棵树的训练结果。因此GBDT的设计思想是"站在 前人的肩膀上看得更远"。

在GBDT的训练过程中,每一棵树的构建,都是基于上一棵树输出的"样本残差"。

GBDT的特点是拟合能力超强,但同时要注意决策树过深,过多而带来的过拟合隐患。

通过定义GBTRegressor来定义GBDT模型,其中setLabelCol、setFeaturesCol都是老生常谈的方法,setMaxDepth和setMaxlter,这两个方法用于避免GBDT模型出现过拟合的情况,前者限定每棵树的深度,而后者直接限制了GBDT模型中决策树的总体数目。后面的训练过程,依然是调用模型的fit方法。

K-mean

结合数据样本的特征向量,根据向量之间的相对距离,K-mean算法可以把所有样本划分为K个类别。

算法步骤:

1、初始化质心

随机选择 K 个数据点作为初始质心,或使用改进方法(如 K-means++)优化初始质心选择。

2、分配数据点到簇

计算每个数据点到所有质心的距离(通常使用欧氏距离),将其分配到最近的质心对应的簇。

3、更新质心位置

重新计算每个簇的质心,取簇内所有数据点的均值作为新质心。

4、判断收敛

重复步骤 2 和 3,直到质心变化小于阈值或达到最大迭代次数。

K-mean的设计思想是"物以类聚",主要依赖向量之间的相对距离,它的计算结果,一方面可以直接用于划分"人群"、"种群",另一方面可以拿来当做生成特征,去参与至监督学习的训练中去。

相关推荐
大大大大晴天3 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB3 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI3 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI3 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI3 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
LinXunFeng4 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
大大大大晴天4 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术8 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子8 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树888 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai