目录
前言
决策树回归(Decision Tree Regression)是一种用于预测连续目标变量的回归模型。与分类决策树类似,回归树通过一系列的决策规则对数据进行分割,以最小化预测误差。
一、回归树样例
二、回归树原理
- 选择特征和分裂点:在每个节点上,选择一个特征和一个分裂点,将数据集分成两个子集,以最小化某种度量(如均方误差)。
- 递归分裂:对每个子集递归地应用相同的分裂规则,直到满足停止条件(如达到最大深度或每个叶子节点包含的样本数过少)。
- 生成叶子节点:每个叶子节点输出该节点中样本的平均值作为预测结果。
三、原理实现步骤
1.选择特征和分裂点
- 先选定一个特征
- 再选定该特征进行切分
- 计算选择每个分裂点造成的损失
- 切分点左边为一部分,右边为一部分
- 计算两个部分y的方差,再相加得到损失
- 比较每个切分点的损失,损失最小的即选为根节点
2.递归分裂
- 对第一个切分点切出来的两个部分,分别再次执行第一步的操作
- 在两个部分里分别计算每个切分点的损失,找出最少的,当做中间节点
3.生成叶子节点
- 根据我们选择的深度,判断分裂几次
- 每个叶子节点的数字都是该节点y的平均值
四、进行预测
- 只要特征数据在某个范围内,那么得到的预测值都是同一个值
例如:输入的x值为[4,5,6],那么预测值均为6.75
总结
决策树里的参数里树的深度和每个叶子节点的样本数量是两个很重要的参数,调试好这两个参数,能有效地防止决策树过拟合