PSO-QGPR粒子群优化高斯过程分位数回归多变量回归预测，MATLAB代码

研究背景

在工程、环境、经济等领域的回归预测中，不仅需要点预测值，还常需量化预测的不确定性。高斯过程回归（GPR）是一种非参数贝叶斯方法，能够同时给出预测均值和置信区间。但其性能高度依赖于核函数超参数（如ARD平方指数核的长度尺度、信号标准差）和噪声水平的设定。传统共轭梯度优化可能陷入局部最优，因此引入粒子群算法（PSO）进行全局优化，以提升GPR的拟合精度和泛化能力。

主要功能

数据读取与预处理：从Excel文件读取多输入单输出数据，分为训练集（190个样本）和测试集（44个样本），并归一化至 $0,1$ 。
超参数优化：利用PSO优化GPR的三个超参数------ARD核的各输入维度长度尺度（sigmaL）、信号标准差（sigmaF）和噪声标准差（sigmaN）。
模型训练与预测：用最优超参数训练GPR，对训练集和测试集进行预测，同时返回置信区间（90%）。
性能评估：计算多项指标，包括R²、MAE、MAPE、MBE、MSE、RMSE，以及区间覆盖率(PICP)和区间平均宽度百分比(PIMWP)。
可视化：绘制训练/测试集预测对比、误差直方图、回归图、相对误差条形图、拟合散点图和PSO迭代曲线。

算法步骤与技术路线

技术路线：数据导入 → 归一化 → PSO寻优（调用GPR适应度函数）→ 最优参数GPR建模 → 仿真预测 → 反归一化 → 评估与绘图。

详细步骤：

载入训练集 P_train, T_train 和测试集 P_test, T_test（6个输入特征，1个输出）。
用 mapminmax 将输入和输出归一化到 $0,1$ 。
定义适应度函数 fobj：给定超参数X，训练GPR，计算训练集和测试集的均方误差（MSE）之和作为适应度值。
PSO初始化：随机产生种群（个数pop=5，维数dim=3），迭代更新粒子速度和位置，寻找使适应度最小的最优超参数 Best_pos。
用 Best_pos 设置 sigmaL0, sigmaF0, sigmaN0，重新训练GPR模型（使用fitrgp，ARD平方指数核，拟牛顿优化器lbfgs）。
调用 predict 得到训练和测试的预测均值 t_sim 及置信区间 l_sim（alpha=0.1 即90%置信区间）。
反归一化得到真实尺度下的预测值。
计算误差指标并显示。
绘制各类分析图表。

公式原理

PSO速度与位置更新：

速度更新：vijk+1=wvijk+c1r1(pij−xijk)+c2r2(gj−xijk)v_{ij}^{k+1} = w v_{ij}^k + c_1 r_1 (p_{ij} - x_{ij}^k) + c_2 r_2 (g_j - x_{ij}^k)vijk+1=wvijk+c1r1(pij−xijk)+c2r2(gj−xijk)
位置更新：xijk+1=xijk+vijk+1x_{ij}^{k+1} = x_{ij}^k + v_{ij}^{k+1}xijk+1=xijk+vijk+1
其中w为惯性权重，c₁、c₂为学习因子，r₁、r₂为 $0,1$ 随机数。

GPR核心（ARD平方指数核）：

协方差函数：k(xi,xj)=σf2exp⁡(−12∑d=1D(xi,d−xj,d)2σl,d2)k(x_i, x_j) = \sigma_f^2 \exp\left(-\frac{1}{2} \sum_{d=1}^D \frac{(x_{i,d} - x_{j,d})^2}{\sigma_{l,d}^2}\right)k(xi,xj)=σf2exp(−21∑d=1Dσl,d2(xi,d−xj,d)2)
其中σ_f为信号标准差，σ_{l,d}为第d个输入特征的长度尺度（由优化得到的sigmaL0向量控制），噪声方差σ_n²由sigmaN0决定。

评价指标（部分）：

均方误差：MSE=1N∑(yi−y^i)2MSE = \frac{1}{N}\sum (y_i - \hat{y}_i)^2MSE=N1∑(yi−y^i)2
平均绝对百分比误差：MAPE=1N∑∣yi−y^iyi∣MAPE = \frac{1}{N}\sum \left|\frac{y_i - \hat{y}_i}{y_i}\right|MAPE=N1∑ yiyi−y^i
R²：R2=1−∑(yi−y^i)2∑(yi−yˉ)2R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}R2=1−∑(yi−yˉ)2∑(yi−y^i)2
区间覆盖率：PICP=1N∑i=1NciPICP = \frac{1}{N} \sum_{i=1}^N c_iPICP=N1∑i=1Nci，若实际值落在区间 $Li,Ui$ $L_i, U_i$ $Li,Ui$ 内则ci=1c_i=1ci=1，否则0。
区间平均宽度百分比：PIMWP=1N∑Ui−Liyi×100%PIMWP = \frac{1}{N}\sum \frac{U_i - L_i}{y_i} \times 100\%PIMWP=N1∑yiUi−Li×100%

参数设定

PSO参数 ：种群数量 pop=5，最大迭代次数 Max_iter=8，粒子维数 dim=3，惯性权重 w=0.8，学习因子 c1=1.5, c2=1.5。
超参数搜索范围：长度尺度和信号标准差下界均为0.1，上界1；噪声标准差下界10，上界30（注意sigmaN0单位应与归一化后尺度匹配）。
GPR设置 ：核函数为 ardsquaredexponential，优化器 lbfgs，预测置信水平90%（alpha=0.1）。

运行环境

软件：MATLAB（建议版本R2018b及以上）。
输入文件 ：data.xlsx 需放置在当前工作路径，包含工作表"training set"和"test set"（B~G列为输入，H列为输出）。

应用场景

该模型适用于需要不确定性量化的小样本回归预测问题，例如：

工程结构性能预测（如混凝土强度、岩土参数）
环境监测（如空气质量预测）
金融或经济时间序列预测
任何需要给出预测值及其可靠区间的多变量回归任务。