【MATLAB】使用梯度提升树在回归预测任务中进行特征选择(深度学习的数据集处理)

1.梯度提升树在神经网络的应用

使用梯度提升树进行特征选择的好处在于可以得到特征的重要性分数,从而识别出对目标变量预测最具影响力的特征。这有助于简化模型并提高其泛化能力,减少过拟合的风险,并且可以加快模型训练和推理速度。此外,特征选择可以帮助理解数据,并为进一步的特征工程提供指导,有效地提高模型的预测性能。

梯度提升树(GBT)是一种强大的监督学习算法,常用于回归和分类问题。通过利用多棵决策树的集成学习方式,GBT 能够捕获非线性关系、处理复杂的数据结构,并对特征之间的相互作用进行建模。因此,使用梯度提升树进行特征选择可以帮助构建更简洁、高效的模型,提高预测准确性,同时保持较好的解释性。

通俗点讲就是,用科学、合理的方法去除掉数据集中不需要的特征。常用在回归预测任务的数据集处理中(也就是N个输入特征,一个输出特征)。

2.代码实现

这一部分主要是进行环境设置。关闭了 MATLAB 的警告信息显示,关闭所有先前打开的图形窗口,清除了 MATLAB 工作区中的所有变量,并清空命令窗口。

Matlab 复制代码
warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口

这里是用 readtable 函数从名为 "01.csv" 的CSV文件中读取数据并将其存储在变量 data 中。如果数据文件不包含表头,则需要使用 readmatrix 函数。

Matlab 复制代码
data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数

这段代码将数据拆分为特征和目标变量。其中 X 存储假设前 2000 行数据的前 6 列是特征,y 存储假设前 2000 行数据的最后一列是目标变量。

Matlab 复制代码
X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量

这部分使用 fitensemble 函数构建了一个包含 100 棵树的 LSBoost 集成模型,用于回归任务。

Matlab 复制代码
ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');

在这个部分中,计算了特征的重要性得分,并将其进行了归一化处理。然后将其显示出来。

Matlab 复制代码
featureImportance = predictorImportance(ens);
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);

这一部分可视化了特征重要性得分,通过绘制条形图展示各个特征的重要性。

Matlab 复制代码
bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');

这一部分代码输出了最重要的四个特征,并重新设置了图表横坐标。(笔者的数据集格式为6个输入一个输出的风力发电机功率数据集)

Matlab 复制代码
topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
xticklabels(topFeaturesNames);

3.运行结果

运行结果如下(以笔者的风力发电机数据集为例):

4.完整代码

Matlab 复制代码
%% 清空环境变量
warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口
% 读取CSV文件
data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数

% 将数据拆分为特征和目标变量
X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量

ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');

% 计算特征的重要性分数
featureImportance = predictorImportance(ens);
% 将特征的重要性得分归一化处理
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);

% 可视化特征重要性
bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');

% 根据得分排序特征
[sortedImportance, sortedIdx] = sort(normalizedFeatureImportance, 'descend');
topFeatures = sortedIdx(1:4); % 选择最重要的四个特征

% 输出最重要的特征
topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
% 重新设置图表横坐标
xticklabels(topFeaturesNames);
相关推荐
程序员打怪兽1 天前
详解Visual Transformer (ViT)网络模型
深度学习
CoovallyAIHub3 天前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
YOLO-IOD深度解析:打破实时增量目标检测的三重知识冲突
深度学习·算法·计算机视觉
用户1474853079744 天前
AI-动手深度学习环境搭建-d2l
深度学习
OpenBayes贝式计算4 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算4 天前
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
人工智能·深度学习·机器学习
在人间耕耘5 天前
HarmonyOS Vision Kit 视觉AI实战:把官方 Demo 改造成一套能长期复用的组件库
人工智能·深度学习·harmonyos