decison tree 决策树

信息增益

信息增益描述的是在分叉过程中获得的熵减,信息增益即熵减。

熵减可以用来决定什么时候停止分叉,当熵减很小的时候你只是在不必要的增加树的深度,并且冒着过拟合的风险

决策树训练(构建)过程

离散值特征处理:One-Hot编码

一个具有 N 个取值的离散特征可以转换为 N 个二进制特征,每个二进制特征对应一个可能的取值。

连续值特征处理:

计算不同阈值的熵减,选取熵减最大的阈值作为分叉阈值

回归树

回归树用来预测一个连续值,训练时跟决策树的区别是训练时最小化方差,而决策树是最大化熵减

集成树

单个决策树的一个缺点是对数据的变化比较敏感,我们需要尝试降低树的敏感度提高鲁棒性,此时我们可以构建集成树,即一组决策树

有放回抽样(sample with replacement)

从训练集中随机取出一个之后放回,确保它在后续抽取中仍有可能被再次抽到。

随机森林

利用有放回抽样,我们可以连续抽样并组成新的训练集,使用新的训练集训练一棵新的树。重复该行为可以生成多棵树,称为随机森林。

如果有 n 个特征,一般要生成 棵树

XGBoost

对随机森林的提升:从第二次迭代开始,不是等概率随机抽样,而是让上一轮预测错误的样本有更大的概率被抽样到,以类似错误修正的方式训练树。

决策树与神经网络的选择

决策树在结构化数据下可用,非结构化数据不推荐;可解释

相关推荐
机器学习之心6 分钟前
MATLAB多子种群混沌自适应哈里斯鹰算法优化BP神经网络回归预测
神经网络·算法·matlab
MicroTech20251 小时前
微算法科技(NASDAQ MLGO)“自适应委托权益证明DPoS”模型:重塑区块链治理新格局
科技·算法·区块链
FanXing_zl1 小时前
在整数MCU上实现快速除法计算:原理、方法与优化
单片机·嵌入式硬件·mcu·算法·定点运算
Paxon Zhang1 小时前
数据结构之**二叉树**超全秘籍宝典2
java·数据结构·算法
迷途之人不知返2 小时前
链表相关的算法题(2)
数据结构·算法·链表
nju_spy3 小时前
力扣每日一题(四)线段树 + 树状数组 + 差分
数据结构·python·算法·leetcode·面试·线段树·笔试
2501_938931253 小时前
解构AI营销获客工具的四大智能中枢与价值逻辑
人工智能·机器学习·自动驾驶
xie0510_3 小时前
排序算法
数据结构·算法·排序算法
guygg883 小时前
基于自适应傅里叶分解(AFD)及其改进算法的信号分解与重构实现
算法
小白狮ww3 小时前
VASP 教程:使用 VASP 进行机器学习力场训练
人工智能·深度学习·机器学习·大模型·分子动力学·计算机程序·vasp