机器学习——决策树

基本概念:

决策树广泛应用于分类和回归问题。

决策树以一种树状结构表示决策过程,每个内部节点表示一个特征或属性,每个分支表示测试的结果,每个叶子节点代表一个值或类别。

纯度:衡量一个子集中的样本类别是否一致。纯度越高,说明子集中的样本越相似。

基尼系数:用于分类的分裂标准,选择划分后基尼系数最小或纯度最大的特征,基尼系数为0表示完全纯净。

信息增益:衡量某一特征后的纯度提升。

决策树能展现完整的决策过程,相较于回归而言,有清晰的链路。

决策树不需要对数据进行归一化。

一般需要限制树的高度,如:3层,高于3层不再继续分裂。

缺点:

1.容易过拟合。

如果不限制决策额数,他会为了把每一个异常值分对,长出无数繁琐的分支,所以需要剪枝,只保留核心主干。

1)预剪枝

限制最大深度

限制叶节点最少样本数

2)后剪枝

先让树肆无忌惮生长,然后自下而上减掉非关键分支。效果更好,但是计算量大。

决策树延伸

随机森林:多颗相互独立的决策树,解决单树稳定性差,容易过拟合的问题。

每次抽取部分数据和特征,面对未知数据,所有树独立预测,投票表决。

梯度提升树(GBDT、XGBoost、LightGBM)

树之间不再独立,前赴后继,第二棵树专门纠正第一棵树的错误,不断迭代提升精度。

相关推荐
AI医影跨模态组学4 分钟前
如何将淋巴结影像组学特征与肿瘤血管异质性及缺氧微环境建立关联,并进一步解释其与晚期胆道癌免疫治疗响应及预后的机制联系
人工智能·论文·医学·医学影像·影像组学
小王毕业啦12 分钟前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
程序员柒叔21 分钟前
OpenClaw 一周动态-2026-W18
人工智能·agent·openclaw
OneThingAI39 分钟前
网心算力云上线 DeepSeek-V4-Pro
人工智能·aigc·deepseek·onethingai
2501_9272835844 分钟前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
小程故事多_8044 分钟前
[大模型面试系列] 多轮对话 Agent 设计实战(含窗口优化 + 工具调用精髓)
人工智能·面试·职场和发展
victory04311 小时前
论文设计和撰写1
人工智能·深度学习·机器学习
love530love2 小时前
精简版|Claude-HUD 插件介绍 + 一键安装教程
人工智能·windows·笔记
冬奇Lab2 小时前
RAG 系列(四):文档处理——从原始文件到高质量 Chunk
人工智能·llm·源码
冬奇Lab2 小时前
一天一个开源项目(第89篇):Warp - AI 驱动的现代化 Rust 终端
人工智能·rust·开源