《零基础入门Spark》学习笔记 Day 17

模型训练-中

GBDT

用多棵决策树来拟合数据样本,但是,树与树之间是有依赖关系的,每一棵树的构建,都是基于前一棵树的训练结果。因此GBDT的设计思想是"站在 前人的肩膀上看得更远"。

在GBDT的训练过程中,每一棵树的构建,都是基于上一棵树输出的"样本残差"。

GBDT的特点是拟合能力超强,但同时要注意决策树过深,过多而带来的过拟合隐患。

通过定义GBTRegressor来定义GBDT模型,其中setLabelCol、setFeaturesCol都是老生常谈的方法,setMaxDepth和setMaxlter,这两个方法用于避免GBDT模型出现过拟合的情况,前者限定每棵树的深度,而后者直接限制了GBDT模型中决策树的总体数目。后面的训练过程,依然是调用模型的fit方法。

K-mean

结合数据样本的特征向量,根据向量之间的相对距离,K-mean算法可以把所有样本划分为K个类别。

算法步骤:

1、初始化质心

随机选择 K 个数据点作为初始质心,或使用改进方法(如 K-means++)优化初始质心选择。

2、分配数据点到簇

计算每个数据点到所有质心的距离(通常使用欧氏距离),将其分配到最近的质心对应的簇。

3、更新质心位置

重新计算每个簇的质心,取簇内所有数据点的均值作为新质心。

4、判断收敛

重复步骤 2 和 3,直到质心变化小于阈值或达到最大迭代次数。

K-mean的设计思想是"物以类聚",主要依赖向量之间的相对距离,它的计算结果,一方面可以直接用于划分"人群"、"种群",另一方面可以拿来当做生成特征,去参与至监督学习的训练中去。

相关推荐
AC赳赳老秦5 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
QYR-分析6 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
智者知已应修善业6 小时前
【51单片机89C51及74LS273、74LS244组成】2022-5-28
c++·经验分享·笔记·算法·51单片机
奋斗的小乌龟6 小时前
langchain4j笔记-06
笔记
·醉挽清风·6 小时前
学习笔记—MySQL—库表操作
笔记·学习·mysql
微擎应用6 小时前
全渠道批发订货商城小程序管理系统
大数据·小程序
卷毛迷你猪7 小时前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs
白小沫7 小时前
TortoiseSVN是什么?
学习
weixin_451431568 小时前
【学习笔记】微博视频页面ajax请求与响应数据分析
笔记·学习·音视频
清辞8539 小时前
尾盘选股法程序开发学习初期
学习