决策树-面试题

空白到白2025-09-09 12:38

1. 决策树基本概念

定义 ：一种树形结构分类模型，通过特征判断序列（内部节点）逐步决策，最终到达表示分类结果的叶子节点。

结构组成：

内部节点：特征判断条件（如"年龄>30？"）
分支：判断结果的路径（"是"或"否"）
叶子节点：最终分类结果（如"拒绝贷款"）

2. 熵（Entropy）的作用

定义 ：信息论中度量随机变量不确定性的指标，计算公式：

作用：

量化数据纯度：熵越小，数据越纯净（如全为同一类别）
指导特征选择：ID3/C4.5算法中，通过熵减（信息增益）选择分裂特征

3. CART vs ID3/C4.5 的核心区别

维度	ID3/C4.5	CART
任务支持	仅分类	分类 + 回归
树结构	多叉树	二叉树
分裂准则	ID3：信息增益 C4.5：信息增益率	分类：基尼指数回归：平方误差最小化
缺陷解决	C4.5修正ID3的多值特征偏好	二叉树结构避免多值特征问题

4. 节点切分依据

不同算法使用不同分裂准则：

算法	分裂依据	公式/说明
ID3	信息增益最大
C4.5	信息增益率最大
CART	基尼指数最小（分类）平方误差最小（回归）

5. 剪枝的原因与方法

为什么剪枝：

过拟合风险：决策树过度学习训练集噪声
泛化需求：提高模型在未知数据的表现

常用剪枝方法：

类型	操作	优缺点
预剪枝	树生成中提前停止分裂（如限制深度、叶节点样本数）	✅ 训练快 ❌ 可能欠拟合
后剪枝	生成完整树后，自底向上替换子树为叶节点（如CCP代价复杂度剪枝）	✅ 保留有效分支 ❌ 计算开销大

总结关键记忆点：

熵和基尼指数：衡量数据混乱度，指导特征选择
算法差异：CART的二叉树和回归能力是最大特色
剪枝本质：模型复杂度和泛化能力的trade-off

上一篇：Spring DI详解--依赖注入的三种方式及优缺点分析

下一篇：重新定义音频编程：SoundFlow如何以模块化设计革新.NET音频开发生态

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中