《零基础入门Spark》学习笔记 Day 17

模型训练-中

GBDT

用多棵决策树来拟合数据样本,但是,树与树之间是有依赖关系的,每一棵树的构建,都是基于前一棵树的训练结果。因此GBDT的设计思想是"站在 前人的肩膀上看得更远"。

在GBDT的训练过程中,每一棵树的构建,都是基于上一棵树输出的"样本残差"。

GBDT的特点是拟合能力超强,但同时要注意决策树过深,过多而带来的过拟合隐患。

通过定义GBTRegressor来定义GBDT模型,其中setLabelCol、setFeaturesCol都是老生常谈的方法,setMaxDepth和setMaxlter,这两个方法用于避免GBDT模型出现过拟合的情况,前者限定每棵树的深度,而后者直接限制了GBDT模型中决策树的总体数目。后面的训练过程,依然是调用模型的fit方法。

K-mean

结合数据样本的特征向量,根据向量之间的相对距离,K-mean算法可以把所有样本划分为K个类别。

算法步骤:

1、初始化质心

随机选择 K 个数据点作为初始质心,或使用改进方法(如 K-means++)优化初始质心选择。

2、分配数据点到簇

计算每个数据点到所有质心的距离(通常使用欧氏距离),将其分配到最近的质心对应的簇。

3、更新质心位置

重新计算每个簇的质心,取簇内所有数据点的均值作为新质心。

4、判断收敛

重复步骤 2 和 3,直到质心变化小于阈值或达到最大迭代次数。

K-mean的设计思想是"物以类聚",主要依赖向量之间的相对距离,它的计算结果,一方面可以直接用于划分"人群"、"种群",另一方面可以拿来当做生成特征,去参与至监督学习的训练中去。

相关推荐
Theodore_10221 天前
深度学习(15):倾斜数据集 & 精确率-召回率权衡
人工智能·笔记·深度学习·机器学习·知识图谱
不会聊天真君6471 天前
JavaScript基础语法(Web前端开发笔记第三期)
前端·javascript·笔记
TechubNews1 天前
Base 发布首个独立 OP Stack 框架的网络升级 Azul,将是 L2 自主迭代的开端?
大数据·网络·人工智能·区块链·能源
Fᴏʀ ʏ꯭ᴏ꯭ᴜ꯭.1 天前
Redis主从复制配置全攻略
数据库·redis·笔记
金融小师妹1 天前
AI政策框架解析:凯文·沃什货币体系重构与美联储治理范式转型
大数据·人工智能·重构·逻辑回归
多年小白1 天前
中科院 Ouroboros 晶圆级存算一体芯片深度解析
大数据·网络·人工智能·科技·ai
SelectDB1 天前
从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台
大数据·数据库·数据分析
夜瞬1 天前
Git工作流程与常用指令——从本地开发到远程协作
大数据·git·elasticsearch
豆瓣鸡1 天前
Gradle学习
学习
海绵宝宝的月光宝盒1 天前
2-非金属材料
经验分享·笔记·学习·其他·职场和发展·课程设计·制造