假设有4个特征值,分析4个特征值与因变量相关性
首先分析其各特征值的相关性程度
bash
data=xlsread('data_path.xlsx');
% 获取各特征值相关性
correlation_matrix = corr(data(:, 1:end-1), data(:, end), 'type', 'Pearson');
% 可视化相关性
heatmap(correlation_matrix, 'Colormap',bone, ...
'XLabel', '因变量', 'YLabel', '自变量', ...
'YDisplayLabels', {'x1','x2','x3','x4'}, ...
'XDisplayLabels', {'y'}, 'ColorScaling', 'scaled');
筛选相关性大的特征值作为回归参数,回归相关系数
bash
x1 = data(:, 1);
x2 = data(:, 2);
x3 = data(:, 3);
x4 = data(:, 4);
y = data(:, 5);
x=[ones(size(y,1),1),x1,x2,x3,x4];
[b,bint,r,rint,stats]=regress(y,x); % b为系数,第一个为偏置值,后续的为对应参数系数
回归方程为:
bash
y = b[2]*x1 + b[3]*x1 + b[4]*x1 + b[5]*x1 + b[1]