8.18 机器学习-决策树(1)

决策树

1. 树模型本质

分类/回归:数据从根节点→叶子节点逐步决策,最终落在叶子节点。

2. 树的组成

根节点:第一个分裂的选择点。

非叶子节点:中间判断条件的过程。

叶子节点:最终决策的结果。

3. 训练 vs 测试

训练阶段:用训练集选择特征、切分节点。

测试阶段:按已建好的树路径直接进行预测。

4. 特征选择标准

熵:衡量数据不确定性(熵越低→数据不确定性越小)。

信息增益:特征分裂后熵的不确定减少的程度(增益越大→特征越优)。

5. 构造实例(以"14天打球"为例)

步骤:

  1. 计算原始熵(9打球/5不打球 → 熵=0.940)。

  2. 计算各特征(如Outlook)的条件熵和信息增益。

  3. 选增益最大的特征作为根节点,递归生成子树。

课堂练习:通过数据集构造决策树

1、总熵

E(D)=−k∑​plog2​(p​)

(属于鱼类=是):2个(1、2)

(属于鱼类=否):3个(3、4、5)

熵≈0.971

2、信息增益

:3(1、2、3)

熵:−(32​log2​32​+31​log2​31​)≈0.918

:2(4、5)

熵:0

信息增益=0.420

相关推荐
智联视频超融合平台几秒前
AI赋能传统电厂:2025能源革命的智慧引擎
人工智能·能源
qcx238 分钟前
【系统学AI】23 AI 时代产品运营与获客全景:CRM SaaS 大变局 + 增长新范式(2026 调研报告)
人工智能·产品运营·产品设计·ai agent·ai native
叶修_A9 分钟前
【COZE-08】Prompt工程进阶 - 结构化输出与思维链
大数据·人工智能·prompt
John_ToDebug11 分钟前
开源与人性:DeepSeek 战略的底层逻辑
人工智能·经验分享·ai
老吴胡编13 分钟前
eknife 2026.05.28 v0.0.5 更新 —— 支持 PDF 文档合并
人工智能·嵌入式硬件·个人开发
OCR_1337162127514 分钟前
技术实测|2026三款主流OCR横向对比:SDK15、PaddleOCR、GLM-OCR选型指南
大数据·人工智能
深蓝电商API14 分钟前
当爬虫遇见大模型:AI驱动的智能数据采集新范式
人工智能·爬虫
陈天伟教授15 分钟前
图解人工智能(37)人工智能应用-车牌识别
人工智能·深度学习
Agent手记15 分钟前
电商智能客服的退换货自动处理流程如何配置?——2026企业级Agent全链路实战指南
人工智能·ai
yingjie11017 分钟前
Scanpy 单细胞转录组分析完整流程(上):从原始数据到细胞聚类
机器学习·数据挖掘·聚类