决策树回归原理详解及Python代码示例

决策树回归原理详解

决策树回归(Decision Tree Regression)是一种非参数监督学习方法,它使用树形结构来对目标变量进行预测。与线性回归模型不同,决策树回归不需要预先假设数据的分布形式,因此能够很好地处理非线性和高维数据。

目录

决策树回归原理详解

[1. 决策树回归的基本概念](#1. 决策树回归的基本概念)

[2. 决策树的构建过程](#2. 决策树的构建过程)

[3. 决策树回归的优缺点](#3. 决策树回归的优缺点)

Python代码示例

详细代码及结果解释

代码解释


  1. 决策树回归的基本概念

决策树回归通过递归地将数据集划分为更小的子集,并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征,节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。

  1. 决策树的构建过程

  2. 选择最优分裂点:选择一个特征及其相应的分裂点,使得数据集在该特征上的分裂能最大程度地减少目标变量的方差(或均方误差)。

  3. 递归分裂:在每个分裂的子集上重复上述过程,直到满足停止条件(如达到最大深度或叶节点样本数量小于某个阈值)。

  4. 生成叶子节点:停止分裂后,叶子节点的值设为该子集上目标变量的均值。

  5. 决策树回归的优缺点

优点

  • 简单易理解,可视化效果好。
  • 对数据预处理要求较低(无需归一化或标准化)。
  • 能处理多种数据类型(数值型、分类型)。
  • 适用于处理非线性关系。

缺点

  • 容易过拟合,特别是树的深度较大时。
  • 对小数据集敏感,容易产生较大波动。
  • 在某些情况下,结果不稳定(对噪声数据敏感)。

Python代码示例

详细代码及结果解释

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# 生成一些示例数据
np.random.seed(0)
x = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(x).ravel()
y[::5] += 3 * (0.5 - np.random.rand(16))  # 添加噪声

# 可视化原始数据
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.title("Original Data")
plt.show()

# 创建决策树回归模型并进行拟合
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(x, y)
regr_2.fit(x, y)

# 预测结果
x_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(x_test)
y_2 = regr_2.predict(x_test)

# 可视化拟合结果
plt.figure()
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(x_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(x_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

# 打印模型参数和均方误差
print("Max depth 2 - Mean Squared Error:", mean_squared_error(y, regr_1.predict(x)))
print("Max depth 5 - Mean Squared Error:", mean_squared_error(y, regr_2.predict(x)))

代码解释

  1. 数据生成

    • 生成80个随机点,并将这些点排序。
    • 使用正弦函数生成目标值,并在每五个数据点上添加噪声以增加数据的复杂性。
  2. 数据可视化

    • 绘制生成的原始数据点,用散点图表示。
  3. 模型训练

    • 创建两个决策树回归模型,一个最大深度为2,另一个最大深度为5。
    • 在生成的数据集上训练两个模型。
  4. 结果预测

    • 在测试数据集(0到5的范围内,每隔0.01一个点)上进行预测。
    • 分别得到深度为2和5的模型的预测结果。
  5. 可视化拟合结果

    • 绘制原始数据点和两个模型的拟合曲线,观察不同深度下的拟合效果。
    • 深度为2的模型(蓝色曲线)较为平滑,但可能欠拟合。
    • 深度为5的模型(绿色曲线)较为复杂,能够更好地拟合数据,但有可能过拟合。
  6. 模型评估

    • 计算并打印两个模型的均方误差(MSE),评估其在训练数据上的拟合效果。
    • 打印结果表明,随着树的深度增加,MSE可能会降低,但也会增加过拟合的风险。
相关推荐
PhoenixAI85 分钟前
AI绘画-Stable Diffusion 原理介绍及使用
人工智能·python·机器学习·ai作画·stable diffusion
2301_796982147 分钟前
pycharm中新建的临时python文件存放在哪里?
ide·python·pycharm
U盘失踪了9 分钟前
Django 多对多关系
python·django
eclipsercp18 分钟前
《每天5分钟用Flask搭建一个管理系统》 第7章:用户认证
后端·python·flask
小尤笔记36 分钟前
Python知识点背诵手册,超详细知识梳理
开发语言·python·学习·python入门·学习手册
经海路大白狗40 分钟前
开启IT世界的第一步:高考新生的暑期学习指南
前端·后端·python·学习·高考
寻至善1 小时前
Python深度理解系列之【排序算法——冒泡排序】
开发语言·python·排序算法
轩轩Aminent1 小时前
ananconda 和 pip傻傻分不清???
python·pip
zhangbin_2372 小时前
【Python机器学习】模型评估与改进——二分类指标
大数据·人工智能·python·学习·机器学习·分类·数据挖掘
maets9062 小时前
【Datawhale夏令营】大模型技术方向Task1打卡笔记
python·datawhale·星火大模型·ai夏令营