高光谱化学成分预测

1、数据划分方法和评估指标调研

$1$ Wang Y , Wang S , Bai R B ,et al.Prediction performance and reliability evaluation of three ginsenosides in Panax ginseng using hyperspectral imaging combined with a novel ensemble chemometric model $J$ .Food Chemistry, 2023.DOI:10.1016/j.foodchem.2023.136917.1区-人参皂苷含量

项目	详细内容
数据集规模	共 400 个人参样本；按种植年限分8组：园参2/3/4/5年、林下参10/14/21/25年，每组50个样本
数据集划分方法	SPXY法（基于联合x-y距离的样本划分）
划分比例	训练集:测试集 = 7:3（训练集280个，测试集120个）
是否分组独立划分	否，整体数据集统一划分，不按年份/种植模式单独分组划分
评估指标	1. 点预测指标：决定系数R2R^2R2、均方根误差RMSE、相对分析误差RPD 2. 不确定性（区间预测）指标：预测区间覆盖率PICP、平均宽度百分比MWP、覆盖宽度准则CWC

$2$ Wang B , Han J , Liu C ,et al.Flaxseed protein content prediction based on hyperspectral wavelength selection with fractional order ant colony optimization $J$ .FRONTIERS IN NUTRITION, 2025, 12(000).DOI:10.3389/fnut.2025.1551029.1区-亚麻籽蛋白质含量

项目	详细内容
数据集规模	共 90 个样本；来自西北30个亚麻品种，每个品种3次重复采集
数据集划分方法	SPXY法（基于联合x-y距离的样本集划分）
划分比例	校正集:预测集 = 2:1（校正集60个，预测集30个）
是否分组独立划分	否，整体数据集统一划分，不按品种/产地单独分组划分
评估指标	1. 决定系数 R2R^2R2（校正集Rc2R^2_cRc2、预测集Rp2R^2_pRp2） 2. 均方根误差 RMSE 3. 相对预测偏差 RPD 4. 平均绝对误差 MAE

$3$ Yang H E , Kim N W , Lee H G ,et al.Prediction of protein content in paddy rice (Oryza sativa L.) combining near-infrared spectroscopy and deep-learning algorithm $J$ .Frontiers in Plant Science, 2024, 15(000):14.DOI:10.3389/fpls.2024.1398762.2区-水稻蛋白质含量

项目	准确内容
数据集规模	带壳稻谷：360 样本 → 1800 条光谱糙米：120 样本 → 1200 条光谱
划分方法	分层随机抽样划分训练集/独立测试集；训练集内部做 10 折交叉验证调参
划分比例	训练集 : 独立测试集 = 7 : 3 10 折 CV 只是训练集内部按 9:1 反复验证
是否分组独立划分	是，稻谷、糙米分别单独划分、单独建模
评估指标	决定系数 R2R^2R2（Rc2R_c^2Rc2、Rv2R_v^2Rv2、Rp2R_p^2Rp2）均方根误差 RMSE（RMSEC、RMSEV、RMSEP）偏差 bias

$4$ Deng Y , Xiao L , Shi Y .Enhanced Hyperspectral Forest Soil Organic Matter Prediction Using a Black-Winged Kite Algorithm-Optimized Convolutional Neural Network and Support Vector Machine $J$ .Applied Sciences (2076-3417), 2025, 15(2).DOI:10.3390/app15020503.3区-土壤有机质测量

项目	详细内容
数据集规模	总样本量 206 个，来自广西雅长国有林场、黄冕国有林场
数据集划分方法	SPXY算法（联合光谱x与有机质y距离划分）
划分比例	训练集∶验证集 = 4∶1（训练集164个，验证集42个）
是否分组独立划分	否，整体数据集统一划分，不按林场/地区单独分组划分
评估指标	1. 决定系数 R2R^2R2 2. 均方根误差 RMSE 3. 平均绝对误差 MAE 4. 平均绝对相对误差 MARE 5. 平均偏差误差 MBE 6. 四分位数间距性能比 RPIQ

$5$ Li X , Li Z , Qiu H ,et al.Multi-scale spatial and spectral feature fusion for soil carbon content prediction based on hyperspectral images $J$ .Ecological Indicators, 2024, 160(000):13.DOI:10.1016/j.ecolind.2024.111843.1区-土壤碳含量

项目	详细内容
数据集规模	内陆(Inland)：164个鳌山湾(Aoshan Bay)：120个胶州湾(Jiaozhou Bay)：134个总计：418个
划分方法	1. 按样本序号顺序划分 2. Kennard‑Stone(KS)法 3. SPXY法
划分比例	校正集∶预测集 = 2∶1
是否分组独立划分	是，按地区(内陆/鳌山湾/胶州湾) 分别独立进行样本划分与建模
评估指标	1. 决定系数 R2R^2R2（Rc2R_c^2Rc2、Rp2R_p^2Rp2） 2. 均方根误差 RMSE（RMSEC、RMSEP） 3. 相对分析误差 RPD

2、常见评估指标介绍

评估指标	计算公式	核心计算逻辑	要解决的核心问题	计算设计的解决原理（为什么这样算）	核心优点
决定系数 R2R^2R2	R2=1−∑i=1n(yi−y^i)2∑i=1n(yi−yˉ)2\displaystyle R^2=1-\frac{\sum_{i=1}^n (y_i-\hat{y}i)^2}{\sum{i=1}^n (y_i-\bar{y})^2}R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2	用残差变异/总变异的占比，衡量模型解释数据变异的比例	无法量化模型解释力、不同数据集/单位无法直接对比拟合效果	以"变异比例"消除单位与量级差异，用1减去未解释变异，直观反映拟合度	无量纲、取值0~1、跨数据集可对比、直观反映解释能力
均方根误差 RMSERMSERMSE	RMSE=1n∑i=1n(yi−y^i)2\displaystyle RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2}RMSE=n1i=1∑n(yi−y^i)2	误差平方→平均→开平方，放大并惩罚大误差	需要量化绝对预测精度，且识别模型的严重错误预测	平方操作放大大误差，开平方恢复原始单位，精准反映整体预测偏差	带物理单位、对异常值敏感、可直观衡量预测精准度
平均绝对误差 MAEMAEMAE	MAE=1n∑i=1n∣yi−y^i∣\displaystyle MAE=\frac{1}{n}\sum_{i=1}^n \vert y_i-\hat{y}_i \vertMAE=n1i=1∑n∣yi−y^i∣	误差取绝对值后直接平均，等权对待所有误差	RMSE受异常值干扰，无法客观评价模型平均稳定性	用绝对值替代平方，不放大极端误差，真实反映平均偏差水平	抗异常值、计算稳定、客观衡量模型预测稳健性
相对分析误差 RPDRPDRPD	RPD=SDRMSEP,SD=1n−1∑i=1n(yi−yˉ)2\displaystyle RPD=\frac{SD}{RMSEP}, SD=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (y_i-\bar{y})^2}RPD=RMSEPSD,SD=n−11i=1∑n(yi−yˉ)2	数据标准差/预测误差，误差相对数据波动的比值	单一RMSE受数据分布影响，无法判定模型实际应用价值	用比值消除数据自身波动差异，直接衡量误差相对于数据的可控程度	无量纲、跨研究可比、有明确判定阈值、直接评估模型可用性

高光谱化学成分预测

1、数据划分方法和评估指标调研

2、常见评估指标介绍

3、数据预处理

4、训练

5、推理

高光谱化学成分预测

1、数据划分方法 和 评估指标 调研

2、常见评估指标介绍

3、数据预处理

4、训练

5、推理

1、数据划分方法和评估指标调研