《零基础入门Spark》学习笔记 Day 17

模型训练-中

GBDT

用多棵决策树来拟合数据样本,但是,树与树之间是有依赖关系的,每一棵树的构建,都是基于前一棵树的训练结果。因此GBDT的设计思想是"站在 前人的肩膀上看得更远"。

在GBDT的训练过程中,每一棵树的构建,都是基于上一棵树输出的"样本残差"。

GBDT的特点是拟合能力超强,但同时要注意决策树过深,过多而带来的过拟合隐患。

通过定义GBTRegressor来定义GBDT模型,其中setLabelCol、setFeaturesCol都是老生常谈的方法,setMaxDepth和setMaxlter,这两个方法用于避免GBDT模型出现过拟合的情况,前者限定每棵树的深度,而后者直接限制了GBDT模型中决策树的总体数目。后面的训练过程,依然是调用模型的fit方法。

K-mean

结合数据样本的特征向量,根据向量之间的相对距离,K-mean算法可以把所有样本划分为K个类别。

算法步骤:

1、初始化质心

随机选择 K 个数据点作为初始质心,或使用改进方法(如 K-means++)优化初始质心选择。

2、分配数据点到簇

计算每个数据点到所有质心的距离(通常使用欧氏距离),将其分配到最近的质心对应的簇。

3、更新质心位置

重新计算每个簇的质心,取簇内所有数据点的均值作为新质心。

4、判断收敛

重复步骤 2 和 3,直到质心变化小于阈值或达到最大迭代次数。

K-mean的设计思想是"物以类聚",主要依赖向量之间的相对距离,它的计算结果,一方面可以直接用于划分"人群"、"种群",另一方面可以拿来当做生成特征,去参与至监督学习的训练中去。

相关推荐
梦里捡到一只猫丶2 分钟前
简单的Payload加密方法
笔记·网络安全
谁似人间西林客7 分钟前
工厂大脑如何让制造从“人驱”迈向“智驱”
大数据·人工智能·制造
财经资讯数据_灵砚智能8 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月3日
大数据·人工智能·python·信息可视化·自然语言处理·灵砚智能
狒狒热知识14 分钟前
178软文网软文营销平台完善多层风控体系护航企业稳健安全传播
大数据·人工智能·安全
坏柠22 分钟前
从一个设备控制面板开始,系统学习 LVGL 界面开发
android·javascript·学习
创业之路&下一个五年23 分钟前
委托、事件、发布-订阅模式全梳理(完整总结)
学习·总结
liana874429 分钟前
构建私有化安全协作平台:以金融级协作平台与全链路安全防护体系重塑政企数字化底座
大数据·安全·金融
绘梨衣54729 分钟前
豆包Seed PDF解析企业落地方法论
大数据·python·pdf
MartinYeung529 分钟前
[论文学习] 全同态加密下的加密文字比较与子字串搜寻演算法延伸研究
学习·区块链·同态加密
大大大大晴天️31 分钟前
Hudi技术内幕:深入理解Hudi文件布局
大数据·hudi