《零基础入门Spark》学习笔记 Day 16

talen_hx2962026-04-16 16:41

模型训练-上

机器学习问题可以分为监督学习与非监督学习。按使用场景不同，监督学习分为回归、分类和协同过滤；而非监督学习分为聚类与频繁项集。

决策树系统算法

决策树是一种根据样本特征向量而构建的树形结构。决策树由节点与有向边组成，其中节点又分为两类，一类是内部节点，一类是叶子节点。内部节点表示的是样本特征，而叶子节点代表分类。决策树的推理过程，与人类的决策过程非常相似的。

数据样本的纯度，决定了模型算法选择哪些特征作为内部节点，同时也决定着决策树何时收敛。所谓样本纯度，简单地说，就是标签的多样性。对于一个集中的样本，如果样本的标签都一样，也即标签的多样性为1，那么就说这个集合的样本纯度很高。

Random Forest

Random Forest又叫随机森林。通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。它属于Bagging（Bootstrap Aggregating）算法的一种，通过随机采样和特征选择降低过拟合风险。

随机森林通过以下方式生成多个决策树：

从原始数据集中进行有放回的随机采样（Bootstrap采样），生成多个子数据集。
对每个子数据集训练一棵决策树，且在每次分裂时随机选择部分特征进行最优分裂。
最终通过投票（分类）或平均（回归）方式整合所有树的预测结果

随机森林的优点

抗过拟合能力强：通过随机采样和特征选择降低方差。
处理高维数据：适用于特征数量较多的数据集。
鲁棒性好：对缺失值和噪声数据不敏感。
可并行化训练：每棵树独立训练，适合分布式计算。

随机森林的缺点

解释性较差：相比单棵决策树，随机森林的决策过程更复杂。
训练时间较长：树的数量较多时，训练和预测开销较大。
对噪声敏感：若数据中存在大量噪声，可能影响性能。

上一篇：教材质量——法考培训的根基与底气

下一篇：HAProxy搭建Web群集

热门推荐

01GitHub 镜像站点 02DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 03【AI】2026 年具身智能模型和世界模型总结 04Codex 接入 DeepSeek API 完整配置文档 05【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08几个好用的ip纯净度检测网站 09CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）10API Key 登录 Codex 也能用插件了，还支持会话删除和导出