24/8/9算法笔记 决策树VS线性回归

复制代码
from sklearn.tree import DecisionTreeRegressor

from sklearn.linear_model import LinearRegression

from sklearn import datasets

from sklearn.model_selection import train_test_split
import numpy as np

X,y = datasets.load_diabetes(return_X_y=True)#糖尿病数据
X_train,X_test,y_train,y_test = train_test_split(X,y)

model = LinearRegression()
model.fit(X_train,y_train)
#上面得分更高,训练数据
#数据量足够大,一定是上面得分更加高
print('训练数据得分',model.score(X_train,y_train))
print('测试数据得分',model.score(X_test,y_test))
复制代码
import matplotlib.pyplot as plt
plt.rcParams['font.family'] ='Fangsong'
plt.figure(figsize = (12,6))
max_depth = np.arange(1,16)
score=[]
score2=[]
for d in max_depth:
    model = DecisionTreeRegressor(max_depth=d)
    model.fit(X_train,y_train)
    score2.append(model.score(X_train,y_train))
    s = model.score(X_test,y_test)
    score.append(s)
    
plt.plot(max_depth,score2,'g*-')#绿色的线是训练数据,随着树深度的增加得分变化
plt.plot(max_depth,score,'ro-')#'红色的是测试数据随深度的增加
plt.xlabel('树最大深度',fontsize = 18)
plt.ylabel('Score',fontsize = 18)
plt.title('决策树得分随着树深度变化',fontsize = 18)
plt.legend(['训练数据的得分','测试数据的得分'],fontsize=18)
print('最高分数',max(score))

决策树和线性回归是两种常用的机器学习算法,它们在很多方面有所不同:

  1. 模型类型

    • 决策树:是一种非参数的监督学习算法,用于分类和回归任务。它通过学习简单的决策规则从数据特征中推断出目标值。
    • 线性回归:是一种参数的监督学习算法,仅用于回归任务。它假设输入特征和输出变量之间存在线性关系。
  2. 处理数据的能力

    • 决策树可以处理数值和类别数据,而且不需要假设数据的分布。
    • 线性回归通常假设数据符合正态分布,并且主要处理数值数据。
  3. 模型解释性

    • 决策树模型易于理解和解释,可以可视化地展示决策过程。
    • 线性回归模型的解释性也很好,因为它基于权重系数来表示特征对预测结果的影响。
  4. 对非线性问题的处理

    • 决策树能够很好地处理非线性问题,因为它通过分割数据空间来捕捉复杂的模式。
    • 线性回归在处理非线性问题时表现不佳,因为它仅适用于线性关系。
  5. 过拟合风险

    • 决策树容易过拟合,尤其是当树变得非常深和复杂时。需要使用剪枝等技术来控制模型复杂度。
    • 线性回归通常不容易过拟合,除非特征数量接近或超过样本数量。
  6. 模型复杂度

    • 决策树的复杂度可以通过树的深度和叶子节点的数量来衡量。
    • 线性回归的复杂度通常较低,因为它只涉及特征的线性组合。
  7. 训练速度

    • 决策树通常训练速度较快,尤其是在使用像 CART 这样的算法时。
    • 线性回归的训练速度通常非常快,因为它只涉及解决一个优化问题。
  8. 预测速度

    • 决策树的预测速度通常较快,因为只需要进行一系列的比较操作。
    • 线性回归的预测速度也很快,因为它只涉及计算一个线性组合。
  9. 多输出问题

    • 决策树可以很容易地扩展到多输出问题,尽管需要对每个输出单独建模。
    • 线性回归也可以处理多输出问题,但每个输出需要一个独立的模型。
  10. 特征选择

    • 决策树在构建过程中可以进行特征选择,自动选择最有信息量的特征进行分裂。
    • 线性回归通常需要预先进行特征选择,以避免模型性能下降。
相关推荐
ゞ 正在缓冲99%…3 分钟前
leetcode76.最小覆盖子串
java·算法·leetcode·字符串·双指针·滑动窗口
xuanjiong4 分钟前
纯个人整理,蓝桥杯使用的算法模板day2(0-1背包问题),手打个人理解注释,超全面,且均已验证成功(附带详细手写“模拟流程图”,全网首个
算法·蓝桥杯·动态规划
go_bai14 分钟前
Linux环境基础开发工具——(2)vim
linux·开发语言·经验分享·笔记·vim·学习方法
吴梓穆23 分钟前
UE5学习笔记 FPS游戏制作35 使用.csv配置文件
笔记·学习·ue5
惊鸿.Jh23 分钟前
【滑动窗口】3254. 长度为 K 的子数组的能量值 I
数据结构·算法·leetcode
明灯L23 分钟前
《函数基础与内存机制深度剖析:从 return 语句到各类经典编程题详解》
经验分享·python·算法·链表·经典例题
100分题库小程序29 分钟前
2025年机动车授权签字人考试判断题分享
经验分享·笔记
碳基学AI29 分钟前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义免费下载方法
大数据·人工智能·python·gpt·算法·语言模型·集成学习
补三补四33 分钟前
机器学习-聚类分析算法
人工智能·深度学习·算法·机器学习
V---scwantop---信41 分钟前
失真扭曲斑点效果ps标题文本特效滤镜样机 Color Blob Distort Text & Logo Effect
笔记