Day21_【机器学习—决策树(3)—剪枝】

决策树剪枝是一种防止决策树过拟合的一种正则化方法;提高其泛化能力。决策树在训练过程中如果生长过深、过于复杂,会过度拟合训练数据中的噪声和异常值,导致在新数据上表现不佳。剪枝通过简化树结构,去除不必要的分支,从而提升模型的鲁棒性。


一、剪枝的目的

  • 减少模型复杂度
  • 防止过拟合
  • 提高在测试集上的预测性能
  • 增强模型的可解释性

二、剪枝的类型

剪枝主要分为两类:预剪枝(Pre-pruning)后剪枝(Post-pruning)


1. 预剪枝(Pre-pruning)------提前停止

在决策树构建过程中,提前终止树的生长。

常见停止条件:
  • 树的深度达到预设最大值
  • 节点中的样本数少于阈值
  • 节点的不纯度下降小于阈值(如信息增益 < ε)
  • 节点中所有样本属于同一类别
  • 没有更多特征可用于划分
优点:
  • 计算开销小
  • 训练速度快
缺点:
  • 容易欠拟合:可能过早停止,错过潜在的有效划分("贪心"问题)
  • 阈值选择敏感,需通过验证集调整

✅ 适用于对训练时间敏感的场景。


2. 后剪枝(Post-pruning)------先生成再简化

先让决策树充分生长 (直到每个叶节点纯或满足最小样本数),然后自底向上地对非叶节点进行评估,判断是否应将其子树替换为叶节点。

优点:
  • 通常比预剪枝效果更好
  • 能保留更多有效结构,避免欠拟合
缺点:
  • 计算成本高(需先建完整树)
  • 实现较复杂
相关推荐
齐齐大魔王19 小时前
COCO 数据集
人工智能·机器学习
式51620 小时前
线性代数(八)非齐次方程组的解的结构
线性代数·算法·机器学习
Coding茶水间21 小时前
基于深度学习的非机动车头盔检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
brave and determined1 天前
CANN训练营 学习(day9)昇腾AscendC算子开发实战:从零到性能冠军
人工智能·算法·机器学习·ai·开发环境·算子开发·昇腾ai
brave and determined1 天前
CANN训练营 学习(day8)昇腾大模型推理调优实战指南
人工智能·算法·机器学习·ai实战·昇腾ai·ai推理·实战记录
源于花海1 天前
迁移学习的第一类方法:数据分布自适应(1)——边缘分布自适应
人工智能·机器学习·迁移学习·数据分布自适应
科士威传动1 天前
丝杆支撑座同轴度如何安装?
人工智能·科技·机器学习·自动化
_Li.1 天前
机器学习-集成学习
人工智能·机器学习·集成学习
极度畅想1 天前
脑电模型实战系列(三):基于 KNN 的 DEAP 脑电情绪识别 KNN 算法与 Canberra 距离深度剖析(三)
机器学习·knn·脑机接口·情绪识别·bci·canberra距离
一个没有感情的程序猿1 天前
前端实现人体骨架检测与姿态对比:基于 MediaPipe 的完整方案
机器学习·计算机视觉·前端框架·开源