机器学习——决策树之回归树

概念

解决回归问题的决策树模型你就是回归树

回归树是一种基于决策树的监督学习算法,用于解决回归问题。通过递归地将特征空间划分为多个子区域,并在每个子区域内拟合一个简单的预测值(如均值),实现对连续目标变量的预测。

特点

必须是二叉树

回归树的构建过程

  1. 特征选择与分割

    遍历所有特征和可能的切分点,选择使均方误差(MSE)或平均绝对误差(MAE)最小的特征和切分点。

    分割准则公式:

    \\min_{j, s} \\left\[ \\min_{c_1} \\sum_{x_i \\in R_1(j,s)} (y_i - c_1)\^2 + \\min_{c_2} \\sum_{x_i \\in R_2(j,s)} (y_i - c_2)\^2 \\right\]

    其中 ( R_1, R_2 ) 为分割后的子区域,( c_1, c_2 ) 为子区域内的预测值(通常取均值)。

  2. 递归分割

    对每个子区域重复上述分割过程,直到满足停止条件(如最大深度、最小样本数或误差减少小于阈值)。

  3. 叶子节点预测

    最终叶子节点的预测值为该区域内样本目标变量的均值。

举例:

两个核心问题:1.节点切分的依据是什么?

2.如何能进行预测?

根据这两个问题,我们讲解回归树的计算示例:

1、

1、计算最优切分点

因为只有一个变量,所以切分变量必然是x,可以考虑如下9个切分点:

1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5\]。 【原因:实际上考虑两个变量间任意一个位置为切分点均可】 \<1\>切分点1.5的计算 当s=1.5时,将数据分为两个部分: 第一部分:(1,5.56) 第二部分:(2,5.7)、(3,5.91)、(4,6.4)...(10,9.05) ### 2、计算损失 ![](https://i-blog.csdnimg.cn/direct/4f12c642463e4cf293dbb96d3ae3b012.png) C1=5.56 C2=1/9(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.5 Loss = (5.56-5.56)\^2 + (5.7-7.5)\^2+(5.91-7.5)\^2+...+(9.05-7.5)\^2 =0+15.72 =15.72 ### 3、同理计算其他分割点的损失 ![](https://i-blog.csdnimg.cn/direct/1b97d0e9c7f24064a297eee3f46bcff4.png) 容易看出,当s=6.5时,loss=1.93最小,所以第一个划分点s=6.5。 ### 4、对于小于6.5部分 ![](https://i-blog.csdnimg.cn/direct/db27d0a50ae0452bb80e968631220419.png) \<1\>切分点1.5的计算 当s=1.5时,将数据分为两个部分: 第一部分:(1,5.56) 第二部分:(2,5.7)、(3,5.91)、(4,6.4)、(5,6.8)、(6,7.05) Loss = 0 +(5.7-6.37)\^2+(5.91-6.37)\^2 +...+(7.05-6.37)\^2 =0+1.3087=1.3087 C1=5.56 C2=1/5(5.7+5.91+6.4+6.8+7.05)=6.37 ### 5、可得出 ![](https://i-blog.csdnimg.cn/direct/1fc5446ea65c43fcb2b2d45e22ff10e4.png) 容易看出:\<1\>当s=3.5时,loss=0.2771最小,所以第一个划分点s=3.5。 \<2\>当s=8.5时,loss=0.021最小,所以第二个划分点s=8.5。 ### 6、假设只分裂我们计算的这几次 ![](https://i-blog.csdnimg.cn/direct/365049c345d842908ee127bdf190371e.png) 那么分段函数为: \<1\>当x\<=3.5时,1/3(5.56+5.7+5.91)=5.72 \<2\>当3.5\当6.5\当8.5\当x\<=3.5时,1/3(5.56+5.7+5.91)=5.72 \<2\>当3.5\当6.5\当8.5\

相关推荐
X journey7 分钟前
机器学习实践(18.5):特征工程补充
人工智能·算法·机器学习
日光明媚27 分钟前
DMD 一步扩散核心原理:从符号定义到梯度推导
人工智能·机器学习·计算机视觉·ai作画·stable diffusion·aigc
Mr数据杨33 分钟前
不可学习 ImageNet 二分类实战 从图像识别到训练数据投毒防御
学习·机器学习·分类·数据挖掘·数据分析·kaggle
F_D_Z1 小时前
Causal Forcing:自回归扩散蒸馏与高质量实时交互视频生成
数据挖掘·回归·音视频
湘美书院--湘美谈教育1 小时前
湘美书院人工智能启示录:AI会是人类的造梦师吗?
大数据·人工智能·深度学习·神经网络·机器学习
做cv的小昊1 小时前
【TJU】应用统计学——第六周作业(3.3 两个正态总体参数的假设检验、3.4 非正态总体参数的假设检验、4.1 一元线性回归分析)
笔记·算法·数学建模·矩阵·回归·线性回归·学习方法
迷藏4941 小时前
# 发散创新:基于Python的自动特征工程实战与深度优化在机器学习
java·开发语言·python·机器学习
Forrit1 小时前
注意力计算为什么要除以根号dK
人工智能·机器学习
Mr数据杨1 小时前
医学影像分类模型构建与辅助诊断落地
机器学习·数据分析·kaggle
輕華3 小时前
LSTM实战(上篇):微博情感分析——词表构建与数据集加载
人工智能·机器学习·lstm