8.18 机器学习-决策树(1)

决策树

1. 树模型本质

分类/回归:数据从根节点→叶子节点逐步决策,最终落在叶子节点。

2. 树的组成

根节点:第一个分裂的选择点。

非叶子节点:中间判断条件的过程。

叶子节点:最终决策的结果。

3. 训练 vs 测试

训练阶段:用训练集选择特征、切分节点。

测试阶段:按已建好的树路径直接进行预测。

4. 特征选择标准

熵:衡量数据不确定性(熵越低→数据不确定性越小)。

信息增益:特征分裂后熵的不确定减少的程度(增益越大→特征越优)。

5. 构造实例(以"14天打球"为例)

步骤:

  1. 计算原始熵(9打球/5不打球 → 熵=0.940)。

  2. 计算各特征(如Outlook)的条件熵和信息增益。

  3. 选增益最大的特征作为根节点,递归生成子树。

课堂练习:通过数据集构造决策树

1、总熵

E(D)=−k∑​plog2​(p​)

(属于鱼类=是):2个(1、2)

(属于鱼类=否):3个(3、4、5)

熵≈0.971

2、信息增益

:3(1、2、3)

熵:−(32​log2​32​+31​log2​31​)≈0.918

:2(4、5)

熵:0

信息增益=0.420

相关推荐
美狐美颜sdk2 小时前
直播美颜SDK特效功能实战:从API调用到效果调优的全过程
人工智能·1024程序员节·美颜sdk·直播美颜sdk·第三方美颜sdk
sali-tec5 小时前
C# 基于halcon的视觉工作流-章56-彩图转云图
人工智能·算法·计算机视觉·c#
梦想画家5 小时前
基于PyTorch的时间序列异常检测管道构建指南
人工智能·pytorch·python
Elastic 中国社区官方博客6 小时前
在 Elasticsearch 中使用 Mistral Chat completions 进行上下文工程
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
一碗绿豆汤6 小时前
机器学习第二阶段
人工智能·机器学习
用什么都重名6 小时前
DeepSeek-OCR 深度解析
人工智能·ocr·deepseek-ocr
河南骏7 小时前
RAG_检索进阶
人工智能·深度学习
灯火不休时8 小时前
95%准确率!CNN交通标志识别系统开源
人工智能·python·深度学习·神经网络·cnn·tensorflow
mit6.8248 小时前
[手机AI开发sdk] Aid_code IDE | PC浏览器同步访问
ide·人工智能·智能手机
deephub9 小时前
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
服务器·人工智能·python·大语言模型·mcp