《零基础入门Spark》学习笔记 Day 16

模型训练-上

机器学习问题可以分为监督学习与非监督学习。按使用场景不同,监督学习分为回归、分类和协同过滤;而非监督学习分为聚类与频繁项集。

决策树系统算法

决策树是一种根据样本特征向量而构建的树形结构。决策树由节点与有向边组成,其中节点又分为两类,一类是内部节点,一类是叶子节点。内部节点表示的是样本特征,而叶子节点代表分类。决策树的推理过程,与人类的决策过程非常相似的。

数据样本的纯度,决定了模型算法选择哪些特征作为内部节点,同时也决定着决策树何时收敛。所谓样本纯度,简单地说,就是标签的多样性。对于一个集中的样本,如果样本的标签都一样,也即标签的多样性为1,那么就说这个集合的样本纯度很高。

Random Forest

Random Forest又叫随机森林。通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。它属于Bagging(Bootstrap Aggregating)算法的一种,通过随机采样和特征选择降低过拟合风险。

随机森林通过以下方式生成多个决策树:

  • 从原始数据集中进行有放回的随机采样(Bootstrap采样),生成多个子数据集。
  • 对每个子数据集训练一棵决策树,且在每次分裂时随机选择部分特征进行最优分裂。
  • 最终通过投票(分类)或平均(回归)方式整合所有树的预测结果

随机森林的优点

  • 抗过拟合能力强:通过随机采样和特征选择降低方差。
  • 处理高维数据:适用于特征数量较多的数据集。
  • 鲁棒性好:对缺失值和噪声数据不敏感。
  • 可并行化训练:每棵树独立训练,适合分布式计算。

随机森林的缺点

  • 解释性较差:相比单棵决策树,随机森林的决策过程更复杂。
  • 训练时间较长:树的数量较多时,训练和预测开销较大。
  • 对噪声敏感:若数据中存在大量噪声,可能影响性能。
相关推荐
U盘失踪了2 小时前
【笔记】Flask 用 session 对象存储用户状态
笔记
Brilliantwxx4 小时前
【C++】 vector(代码实现+坑点讲解)
开发语言·c++·笔记·算法
百锦再4 小时前
Auto.js变成基础知识学习
开发语言·javascript·学习·sqlite·kotlin·android studio·数据库开发
KuaCpp5 小时前
C++新特性学习
c++·学习
Komorebi_99997 小时前
大模型学习day5
学习·大模型
逍遥德8 小时前
AI时代,计算机专业大学生学习指南
java·javascript·人工智能·学习·ai编程
网络与设备以及操作系统学习使用者8 小时前
直连路由优先级最高
运维·网络·学习·华为·智能路由器
计算机毕业编程指导师8 小时前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师8 小时前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django
码途漫谈9 小时前
Easy-Vibe高级开发篇阅读笔记(五)——CC教程之Agent Teams
人工智能·笔记·ai·开源·ai编程