《零基础入门Spark》学习笔记 Day 16

模型训练-上

机器学习问题可以分为监督学习与非监督学习。按使用场景不同,监督学习分为回归、分类和协同过滤;而非监督学习分为聚类与频繁项集。

决策树系统算法

决策树是一种根据样本特征向量而构建的树形结构。决策树由节点与有向边组成,其中节点又分为两类,一类是内部节点,一类是叶子节点。内部节点表示的是样本特征,而叶子节点代表分类。决策树的推理过程,与人类的决策过程非常相似的。

数据样本的纯度,决定了模型算法选择哪些特征作为内部节点,同时也决定着决策树何时收敛。所谓样本纯度,简单地说,就是标签的多样性。对于一个集中的样本,如果样本的标签都一样,也即标签的多样性为1,那么就说这个集合的样本纯度很高。

Random Forest

Random Forest又叫随机森林。通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。它属于Bagging(Bootstrap Aggregating)算法的一种,通过随机采样和特征选择降低过拟合风险。

随机森林通过以下方式生成多个决策树:

  • 从原始数据集中进行有放回的随机采样(Bootstrap采样),生成多个子数据集。
  • 对每个子数据集训练一棵决策树,且在每次分裂时随机选择部分特征进行最优分裂。
  • 最终通过投票(分类)或平均(回归)方式整合所有树的预测结果

随机森林的优点

  • 抗过拟合能力强:通过随机采样和特征选择降低方差。
  • 处理高维数据:适用于特征数量较多的数据集。
  • 鲁棒性好:对缺失值和噪声数据不敏感。
  • 可并行化训练:每棵树独立训练,适合分布式计算。

随机森林的缺点

  • 解释性较差:相比单棵决策树,随机森林的决策过程更复杂。
  • 训练时间较长:树的数量较多时,训练和预测开销较大。
  • 对噪声敏感:若数据中存在大量噪声,可能影响性能。
相关推荐
是一个Bug1 天前
Agent(智能体)应用 的入门学习路径
学习·机器学习
2301_809051141 天前
Linux 网络编程 学习笔记
linux·网络·学习
eggcode1 天前
【Qt学习】Linux(ARM架构)在线安装Qt6.x
linux·qt·学习·arm
鹏北海-RemHusband1 天前
Go 语言进阶笔记 — 面向 JS/TS 前端开发者
笔记·golang
_李小白1 天前
【android opencv学习笔记】Day 26: 滤波算法之低通滤波与图像缩放插值
android·opencv·学习
Bechamz1 天前
大数据开发学习Day43
大数据·学习
nnsix1 天前
Unity QFramework ResKit、UIKit 笔记
笔记
摇滚侠1 天前
Java 零基础全套教程,反射机制,笔记 187-188
java·开发语言·笔记
【云轩】1 天前
如何设计一台能模拟电机的电子负载:一个硬件工程师的实战笔记
笔记·嵌入式硬件