机器学习——决策树

基本概念:

决策树广泛应用于分类和回归问题。

决策树以一种树状结构表示决策过程,每个内部节点表示一个特征或属性,每个分支表示测试的结果,每个叶子节点代表一个值或类别。

纯度:衡量一个子集中的样本类别是否一致。纯度越高,说明子集中的样本越相似。

基尼系数:用于分类的分裂标准,选择划分后基尼系数最小或纯度最大的特征,基尼系数为0表示完全纯净。

信息增益:衡量某一特征后的纯度提升。

决策树能展现完整的决策过程,相较于回归而言,有清晰的链路。

决策树不需要对数据进行归一化。

一般需要限制树的高度,如:3层,高于3层不再继续分裂。

缺点:

1.容易过拟合。

如果不限制决策额数,他会为了把每一个异常值分对,长出无数繁琐的分支,所以需要剪枝,只保留核心主干。

1)预剪枝

限制最大深度

限制叶节点最少样本数

2)后剪枝

先让树肆无忌惮生长,然后自下而上减掉非关键分支。效果更好,但是计算量大。

决策树延伸

随机森林:多颗相互独立的决策树,解决单树稳定性差,容易过拟合的问题。

每次抽取部分数据和特征,面对未知数据,所有树独立预测,投票表决。

梯度提升树(GBDT、XGBoost、LightGBM)

树之间不再独立,前赴后继,第二棵树专门纠正第一棵树的错误,不断迭代提升精度。

相关推荐
AI体验君1 小时前
2026年AI数据大屏实用指南,简化数据可视化制作
人工智能·信息可视化
AI、少年郎1 小时前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
NULL指向我1 小时前
信号处理学习笔记6:ADC采样线性处理实测拟合
人工智能·算法·机器学习
mhkxbq1 小时前
昆仑G5580、G5680 V2、G2280及泰山鲲鹏200,AI大数据优选服务器
大数据·服务器·人工智能
fof9201 小时前
Base LLM | 从 NLP 到 LLM 的算法全栈教程 第八天
人工智能·自然语言处理
汽车仪器仪表相关领域2 小时前
NHXJ-02汽车悬架检验台 实操型实战手册
人工智能·功能测试·测试工具·算法·安全·单元测试·可用性测试
枫叶林FYL2 小时前
【Python高级工程与架构实战】项目四 现代ETL编排平台:Airflow + dbt + Snowflake 企业级数据管道架构与实现
人工智能·python·架构·etl
AI服务老曹2 小时前
异构计算与边缘协同:基于 Spring Boot 的 AI 视频管理平台架构深度解析
人工智能·spring boot·音视频
源码之屋2 小时前
计算机毕业设计:Python天气数据采集与可视化分析平台 Django框架 线性回归 数据分析 大数据 机器学习 大模型 气象数据(建议收藏)✅
人工智能·python·深度学习·算法·django·线性回归·课程设计