模型和算法篇(一)监督学习回归问题(2)树形回归

三、决策树回归算法(Decision Tree)

1、核心思想

通过不断选择特征进行划分:

  • 将数据空间划分为多个区域
  • 每个区域对应一个预测值

本质类似一系列 if-else 规则。

简单地说是从样本数据的特征属性中,通过学习简单的决策规则,也就是我们耳熟能详的 IF ELSE 规则,来预测目标变量的值。这个算法的核心是划分点的选择和输出值的确定。

这种算法是根据两个特征 x1​ 和 x2​ 的值,以及标签 y 的取值,来对二维平面上的区域进行精准分割,以确定从特征到标签的映射规则。根据树的深度和分叉时所选择的特征的不同,我们可以训练出很多棵不一样的树来。

2、划分标准

回归问题中通常使用:

  • 最小化均方误差(MSE)
  • 或最小化方差

3、代码示例

复制代码
from sklearn.tree import DecisionTreeRegressor

model = DecisionTreeRegressor(max_depth=3)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

4、优缺点

优点:

  • 能处理非线性关系
  • 可解释性强

缺点:

  • 容易过拟合
  • 对数据波动敏感

四、随机森林回归算法(Random Forest)

1、定义

随机森林是一种典型的集成学习方法:

通过构建多棵决策树,并对结果进行平均来提高模型性能。

由多棵决策树构成的集成学习算法。它既能用于分类问题,也能用于回归问题。而且无论是解决哪类问题,它都是相对优秀的算法。在训练模型的过程中,随机森林会构建多个决策树,如果解决的是分类问题,那么它的输出类别是由个别树输出的类别的众数而定;如果解决的是回归问题,那么它会对多棵树的预测结果进行平均。

随机森林纠正了决策树过度拟合其训练集的问题,在很多情况下它都能有不错的表现。这里的"过拟合",其实就是说模型对训练集的模拟过头了,反而不太适合验证集和测试集。

2、核心机制

  • Bootstrap 采样(有放回抽样)
  • 随机选择特征
  • 多模型集成

3、预测方式

  • 回归:取平均值

4、代码示例

复制代码
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

from sklearn.linear_model import LinearRegression #导入线性回归模型
from sklearn.tree import DecisionTreeRegressor #导入决策树回归模型
from sklearn.ensemble import RandomForestRegressor #导入随机森林回归模型

#创建模型
model_lr = LinearRegression() #创建线性回归模型
model_dtr = DecisionTreeRegressor() #创建决策树回归模型
model_rfr = RandomForestRegressor() #创建随机森林回归模型

#训练,不要小看这几个简单的 fit 语句,这是模型进行自我学习的关键过程。
model_lr.fit(X_train, y_train) #拟合线性回归模型
model_dtr.fit(X_train, y_train) #拟合决策树模型
model_rfr.fit(X_train, y_train) #拟合随机森林模型

5、优点

  • 抑制过拟合
  • 泛化能力强
  • 表现稳定

对于决策树和随机森林算法来说,它们既有回归算法(Regressor),也有分类算法(Classifer)。

在线性回归算法中,机器是通过梯度下降,逐步减少数据集拟合过程中的损失,让线性函数对特征到标签的模拟越来越贴切。而在决策树模型中,算法是通过根据特征值选择划分点来确定输出值的;在随机森林算法中,机器则是生成多棵决策树,并通过 Bagging 的方法得到最终的预测模型。

相关推荐
AI算法沐枫11 小时前
深度学习python代码处理科研测序数据
数据结构·人工智能·python·深度学习·决策树·机器学习·线性回归
哥布林学者11 小时前
高光谱拼接算法(一)扫推式成像和航带拼接算法
机器学习·高光谱成像
malog_12 小时前
大语言模型后训练全解析
人工智能·深度学习·机器学习·ai·语言模型
枫叶林FYL13 小时前
【强化学习】3 双系统持续强化学习:快速迁移与元知识整合架构手册
人工智能·机器学习·架构
:mnong15 小时前
SHAP 自动解释成本构成分析报告
机器学习·shap
一切皆是因缘际会16 小时前
本源投影内生智能:从概率拟合到硅基生命的底层重构
人工智能·深度学习·机器学习·ai·重构
爱学习的徐徐17 小时前
监督学习核心算法:逻辑回归(Logistic Regression)
人工智能·机器学习·逻辑回归
人工智能培训17 小时前
中国人工智能培训网—AI系列录播课
大数据·人工智能·机器学习·计算机视觉·知识图谱
nebula-AI18 小时前
人工智能导论:模型与算法(未来发展与趋势)
人工智能·神经网络·算法·机器学习·量子计算·automl·类脑计算
忆~遂愿19 小时前
从文字应答到具象共情:Agent 交互的底层革新
人工智能·深度学习·目标检测·microsoft·机器学习·ar·交互