《零基础入门Spark》学习笔记 Day 16

模型训练-上

机器学习问题可以分为监督学习与非监督学习。按使用场景不同,监督学习分为回归、分类和协同过滤;而非监督学习分为聚类与频繁项集。

决策树系统算法

决策树是一种根据样本特征向量而构建的树形结构。决策树由节点与有向边组成,其中节点又分为两类,一类是内部节点,一类是叶子节点。内部节点表示的是样本特征,而叶子节点代表分类。决策树的推理过程,与人类的决策过程非常相似的。

数据样本的纯度,决定了模型算法选择哪些特征作为内部节点,同时也决定着决策树何时收敛。所谓样本纯度,简单地说,就是标签的多样性。对于一个集中的样本,如果样本的标签都一样,也即标签的多样性为1,那么就说这个集合的样本纯度很高。

Random Forest

Random Forest又叫随机森林。通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。它属于Bagging(Bootstrap Aggregating)算法的一种,通过随机采样和特征选择降低过拟合风险。

随机森林通过以下方式生成多个决策树:

  • 从原始数据集中进行有放回的随机采样(Bootstrap采样),生成多个子数据集。
  • 对每个子数据集训练一棵决策树,且在每次分裂时随机选择部分特征进行最优分裂。
  • 最终通过投票(分类)或平均(回归)方式整合所有树的预测结果

随机森林的优点

  • 抗过拟合能力强:通过随机采样和特征选择降低方差。
  • 处理高维数据:适用于特征数量较多的数据集。
  • 鲁棒性好:对缺失值和噪声数据不敏感。
  • 可并行化训练:每棵树独立训练,适合分布式计算。

随机森林的缺点

  • 解释性较差:相比单棵决策树,随机森林的决策过程更复杂。
  • 训练时间较长:树的数量较多时,训练和预测开销较大。
  • 对噪声敏感:若数据中存在大量噪声,可能影响性能。
相关推荐
通信小呆呆3 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick3 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee3 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
Alsn863 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e3 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨3 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
闪闪发亮的小星星3 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq3 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
极光代码工作室3 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai202510093 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm