- 原理:近红外光谱反映的是含氢基团(O-H, N-H, C-H)的倍频与合频吸收。菠萝中的水分含有大量O-H键,其吸收峰(如1450nm、1940nm附近)与含水率高度相关。
- 策略:原始光谱噪声大、含冗余信息。通过多种预处理方法消除干扰,然后用偏最小二乘法提取与含水率最相关的潜变量,建立稳健的预测模型。
完整技术路线
第一步:数据采集与准备
- 样本集:准备涵盖不同产地、品种、成熟度、部位(果肉、果芯)的菠萝样本(N>100为宜),以覆盖未来预测范围的变异。
- 参考值测量 :使用国标法(烘箱干燥法) 精确测定每个样本的真实含水率,作为模型建模的Y值(因变量)。
- 光谱采集 :
- 仪器:傅里叶变换近红外光谱仪或便携式光谱仪。
- 模式 :通常使用漫反射模式。需统一测量部位、压力、温度。
- 波段:推荐 900-1700 nm 或更宽的 780-2500 nm。
- 扫描次数:每个样本多次扫描取平均,以降低噪声。
第二步:光谱预处理(核心步骤,多种方法比较)
对原始光谱矩阵 X 进行预处理,目的是消除物理散射、噪声、基线漂移等影响。以下是常见的预处理方法及其作用:
| 预处理方法 | 主要目的 | 适用场景/问题 |
|---|---|---|
| 多元散射校正 | 消除颗粒大小、表面散射引起的基线漂移 | 固体、粉末样本,散射效应明显 |
| 标准正态变量变换 | 与MSC类似,校正散射和光程变化 | 适用于散射严重、样本表面不均 |
| 一阶/二阶导数 | 消除基线漂移,增强微弱吸收峰,分辨重叠峰 | 存在严重基线漂移,需分辨重叠峰 |
| Savitzky-Golay平滑 | 消除高频随机噪声,提高信噪比 | 光谱噪声较大,需要平滑时 |
| 归一化 | 消除光程或样本量的绝对差异,使光谱在同一尺度 | 样本厚度或密度不一致 |
| 去趋势 | 移除光谱中的基线倾斜 | 光谱存在线性或多项式基线漂移 |
实际操作 :通常会组合使用这些方法(如 SNV + Detrending,或 Smoothing + 1st Derivative)。需要通过后续模型效果选择最佳组合。
第三步:数据集划分
将样本集随机划分为:
- 校正集:用于建立PLS模型(通常占70-80%)。
- 验证集:用于在建模过程中确定最佳潜变量数,防止过拟合(通常占10-15%)。
- 预测集:用于最终独立评估模型的泛化能力(通常占10-15%)。
- 注意:可使用Kennard-Stone或SPXY算法进行划分,确保样本在光谱空间和性质空间分布均匀。
第四步:PLS建模与优化
- 模型建立 :将预处理后的光谱数据 X 与真实含水率 Y 输入PLS算法。
- 关键参数 :潜变量数是核心。数量过少拟合不足,过多导致过拟合。
- 确定最佳LV数 :观察验证集 的预测误差随LV数变化的曲线。通常选择验证集误差最小或趋于稳定的LV数。
- 交叉验证:在校正集内部使用留一法或K折交叉验证,辅助确定LV数并初步评估模型稳健性。
第五步:模型评估与比较
使用以下指标,分别评估在校正集和预测集上的表现,并比较不同预处理组合的效果:
| 评估指标 | 公式/说明 | 理想值 |
|---|---|---|
| 决定系数 | 回归平方和与总平方和之比,解释模型对Y变异的解释能力 | R²c (校正集) > 0.9, R²p (预测集) 接近R²c |
| 校正均方根误差 | 衡量校正集预测值与真实值的平均偏差 | RMSEC 越小越好 |
| 预测均方根误差 | 衡量预测集预测值与真实值的平均偏差 | RMSEP 接近RMSEC,且值小 |
| 相对分析误差 | RPD = SD / RMSEP, 评估模型的预测能力 | RPD > 2.5 表明模型优秀,可用于定量;>2.0 可用于粗略筛选 |
关键比较 :绘制 "真实值 vs 预测值" 的散点图,是直观判断模型优劣的最佳方式。
第六步:变量筛选(可选但推荐)
PLS虽已提取信息,但可进一步优化:
- 回归系数法:观察PLS回归系数,选取绝对值大的波段(即对含水率贡献大的波长)重新建模,可简化模型、提高稳健性。
- 竞争性自适应重加权采样:迭代选择信息量大的波长点,是高效的变量选择方法。
- 连续投影算法:选择共线性最小的波长组合。
