MATLAB基于近红外光谱检测的菠萝含水率预测(多种预处理+PLS)

原理：近红外光谱反映的是含氢基团（O-H, N-H, C-H）的倍频与合频吸收。菠萝中的水分含有大量O-H键，其吸收峰（如1450nm、1940nm附近）与含水率高度相关。
策略：原始光谱噪声大、含冗余信息。通过多种预处理方法消除干扰，然后用偏最小二乘法提取与含水率最相关的潜变量，建立稳健的预测模型。

样本集：准备涵盖不同产地、品种、成熟度、部位（果肉、果芯）的菠萝样本（N>100为宜），以覆盖未来预测范围的变异。
参考值测量 ：使用国标法（烘箱干燥法） 精确测定每个样本的真实含水率，作为模型建模的Y值（因变量）。
光谱采集 ：
- 仪器：傅里叶变换近红外光谱仪或便携式光谱仪。
- 模式：通常使用漫反射模式。需统一测量部位、压力、温度。
- 波段：推荐 900-1700 nm 或更宽的 780-2500 nm。
- 扫描次数：每个样本多次扫描取平均，以降低噪声。

对原始光谱矩阵 X 进行预处理，目的是消除物理散射、噪声、基线漂移等影响。以下是常见的预处理方法及其作用：

实际操作 ：通常会组合使用这些方法（如 SNV + Detrending，或 Smoothing + 1st Derivative）。需要通过后续模型效果选择最佳组合。

将样本集随机划分为：

使用以下指标，分别评估在校正集和预测集上的表现，并比较不同预处理组合的效果：

评估指标	公式/说明	理想值
决定系数	回归平方和与总平方和之比，解释模型对Y变异的解释能力	R²c (校正集) > 0.9， R²p (预测集) 接近R²c
校正均方根误差	衡量校正集预测值与真实值的平均偏差	RMSEC 越小越好
预测均方根误差	衡量预测集预测值与真实值的平均偏差	RMSEP 接近RMSEC，且值小
相对分析误差	RPD = SD / RMSEP，评估模型的预测能力	RPD > 2.5 表明模型优秀，可用于定量；>2.0 可用于粗略筛选

关键比较 ：绘制 "真实值 vs 预测值" 的散点图，是直观判断模型优劣的最佳方式。

PLS虽已提取信息，但可进一步优化：