决策树-面试题

1. 决策树基本概念​

​定义​ ​:一种树形结构分类模型,通过特征判断序列(内部节点)逐步决策,最终到达表示分类结果的叶子节点。

​结构组成​​:

  • ​内部节点​:特征判断条件(如"年龄>30?")
  • ​分支​:判断结果的路径("是"或"否")
  • ​叶子节点​:最终分类结果(如"拒绝贷款")

​2. 熵(Entropy)的作用​

​定义​ ​:信息论中度量随机变量不确定性的指标,计算公式:

​作用​​:

  • ​量化数据纯度​:熵越小,数据越纯净(如全为同一类别)
  • ​指导特征选择​:ID3/C4.5算法中,通过熵减(信息增益)选择分裂特征

​3. CART vs ID3/C4.5 的核心区别​

​维度​ ​ID3/C4.5​ ​CART​
​任务支持​ 仅分类 分类 + 回归
​树结构​ 多叉树 二叉树
​分裂准则​ ID3:信息增益 C4.5:信息增益率 分类:基尼指数 回归:平方误差最小化
​缺陷解决​ C4.5修正ID3的多值特征偏好 二叉树结构避免多值特征问题

​4. 节点切分依据​

不同算法使用不同分裂准则:

​算法​ ​分裂依据​ ​公式/说明​
​ID3​ 信息增益最大
​C4.5​ 信息增益率最大
​CART​ 基尼指数最小(分类) 平方误差最小(回归)

​5. 剪枝的原因与方法​

​为什么剪枝​​:

  • ​过拟合风险​:决策树过度学习训练集噪声
  • ​泛化需求​:提高模型在未知数据的表现

​常用剪枝方法​​:

​类型​ ​操作​ ​优缺点​
​预剪枝​ 树生成中提前停止分裂(如限制深度、叶节点样本数) ✅ 训练快 ❌ 可能欠拟合
​后剪枝​ 生成完整树后,自底向上替换子树为叶节点(如CCP代价复杂度剪枝) ✅ 保留有效分支 ❌ 计算开销大

​总结关键记忆点​​:

  1. ​熵和基尼指数​:衡量数据混乱度,指导特征选择
  2. ​算法差异​:CART的二叉树和回归能力是最大特色
  3. ​剪枝本质​:模型复杂度和泛化能力的trade-off
相关推荐
好运的阿财13 小时前
“锟斤拷”问题——程序中用powershell执行命令出现中文乱码的解决办法
linux·前端·人工智能·机器学习·架构·编辑器·vim
美式请加冰13 小时前
简单多状态问题
数据结构·算法·leetcode
沅_Yuan13 小时前
基于LSSVM-ABKDE的多输入单输出回归预测模型【MATLAB】
人工智能·神经网络·机器学习·matlab·回归预测·lssvm·kde
计算机安禾13 小时前
【数据结构与算法】第38篇:图论(二):深度优先搜索(DFS)与广度优先搜索(BFS)
数据结构·算法·矩阵·排序算法·深度优先·图论·宽度优先
佑白雪乐13 小时前
<LeetCode>二叉树前/中/后/层遍历**递归&&非递归**
算法·leetcode·深度优先
汀、人工智能13 小时前
[特殊字符] 第56课:在排序数组中查找元素的首末位置
数据结构·算法·数据库架构·图论·bfs·在排序数组中查找元素的首末位置
小O的算法实验室13 小时前
2026年IEEE TASE,面对突发危险区域的基于强化学习的多无人机路径规划,深度解析+性能实测
算法·无人机·论文复现·智能算法·智能算法改进
小陈工13 小时前
Python Web开发入门(十八):跨域问题解决方案——从“为什么我的请求被拦了“到“我让浏览器乖乖听话“
开发语言·python·机器学习·架构·数据挖掘·回归·状态模式
AI科技星13 小时前
全维度相对论推导、光速螺旋时空与北斗 GEO 钟差的统一理论
开发语言·线性代数·算法·机器学习·数学建模
Chef_Chen13 小时前
Agent学习--LLM--推理熵
人工智能·学习·机器学习