1、数据划分方法 和 评估指标 调研
1\] Wang Y , Wang S , Bai R B ,et al.Prediction performance and reliability evaluation of three ginsenosides in Panax ginseng using hyperspectral imaging combined with a novel ensemble chemometric model\[J\].Food Chemistry, 2023.DOI:10.1016/j.foodchem.2023.136917.`1区-人参皂苷含量` | 项目 | 详细内容 | |:-------------|:-------------------------------------------------------------------------------------------| | **数据集规模** | 共 **400** 个人参样本;按种植年限分8组:园参2/3/4/5年、林下参10/14/21/25年,每组50个样本 | | **数据集划分方法** | **SPXY法**(基于联合x-y距离的样本划分) | | **划分比例** | 训练集:测试集 = **7:3**(训练集280个,测试集120个) | | **是否分组独立划分** | **否**,整体数据集统一划分,不按年份/种植模式单独分组划分 | | **评估指标** | 1. 点预测指标:决定系数R2R\^2R2、均方根误差RMSE、相对分析误差RPD 2. 不确定性(区间预测)指标:预测区间覆盖率PICP、平均宽度百分比MWP、覆盖宽度准则CWC | \[2\] Wang B , Han J , Liu C ,et al.Flaxseed protein content prediction based on hyperspectral wavelength selection with fractional order ant colony optimization\[J\].FRONTIERS IN NUTRITION, 2025, 12(000).DOI:10.3389/fnut.2025.1551029.`1区-亚麻籽蛋白质含量` | 项目 | 详细内容 | |:-------------|:--------------------------------------------------------------------------------------------| | **数据集规模** | 共 **90** 个样本;来自西北30个亚麻品种,每个品种3次重复采集 | | **数据集划分方法** | **SPXY法**(基于联合x-y距离的样本集划分) | | **划分比例** | 校正集:预测集 = **2:1**(校正集60个,预测集30个) | | **是否分组独立划分** | **否**,整体数据集统一划分,不按品种/产地单独分组划分 | | **评估指标** | 1. 决定系数 R2R\^2R2(校正集Rc2R\^2_cRc2、预测集Rp2R\^2_pRp2) 2. 均方根误差 RMSE 3. 相对预测偏差 RPD 4. 平均绝对误差 MAE | \[3\] Yang H E , Kim N W , Lee H G ,et al.Prediction of protein content in paddy rice (Oryza sativa L.) combining near-infrared spectroscopy and deep-learning algorithm\[J\].Frontiers in Plant Science, 2024, 15(000):14.DOI:10.3389/fpls.2024.1398762.`2区-水稻蛋白质含量` | 项目 | 准确内容 | |:---------|:--------------------------------------------------------------------------------------------| | 数据集规模 | 带壳稻谷:360 样本 → 1800 条光谱 糙米:120 样本 → 1200 条光谱 | | 划分方法 | **分层随机抽样** 划分**训练集/独立测试集** ; 训练集内部做 **10 折交叉验证** 调参 | | 划分比例 | **训练集 : 独立测试集 = 7 : 3** 10 折 CV 只是**训练集内部**按 9:1 反复验证 | | 是否分组独立划分 | **是** ,稻谷、糙米**分别单独划分、单独建模** | | 评估指标 | 决定系数 R2R\^2R2(Rc2R_c\^2Rc2、Rv2R_v\^2Rv2、Rp2R_p\^2Rp2) 均方根误差 RMSE(RMSEC、RMSEV、RMSEP) 偏差 bias | \[4\] Deng Y , Xiao L , Shi Y .Enhanced Hyperspectral Forest Soil Organic Matter Prediction Using a Black-Winged Kite Algorithm-Optimized Convolutional Neural Network and Support Vector Machine\[J\].Applied Sciences (2076-3417), 2025, 15(2).DOI:10.3390/app15020503.`3区-土壤有机质测量` | 项目 | 详细内容 | |:-------------|:----------------------------------------------------------------------------------------------| | **数据集规模** | 总样本量 **206** 个,来自广西雅长国有林场、黄冕国有林场 | | **数据集划分方法** | **SPXY算法**(联合光谱x与有机质y距离划分) | | **划分比例** | 训练集∶验证集 = **4∶1**(训练集164个,验证集42个) | | **是否分组独立划分** | **否**,整体数据集统一划分,不按林场/地区单独分组划分 | | **评估指标** | 1. 决定系数 R2R\^2R2 2. 均方根误差 RMSE 3. 平均绝对误差 MAE 4. 平均绝对相对误差 MARE 5. 平均偏差误差 MBE 6. 四分位数间距性能比 RPIQ | \[5\] Li X , Li Z , Qiu H ,et al.Multi-scale spatial and spectral feature fusion for soil carbon content prediction based on hyperspectral images\[J\].Ecological Indicators, 2024, 160(000):13.DOI:10.1016/j.ecolind.2024.111843.`1区-土壤碳含量` | 项目 | 详细内容 | |:-------------|:-------------------------------------------------------------------------------------| | **数据集规模** | 内陆(Inland):164个 鳌山湾(Aoshan Bay):120个 胶州湾(Jiaozhou Bay):134个 总计:418个 | | **划分方法** | 1. 按样本序号顺序划分 2. Kennard‑Stone(KS)法 3. SPXY法 | | **划分比例** | 校正集∶预测集 = **2∶1** | | **是否分组独立划分** | **是** ,按**地区(内陆/鳌山湾/胶州湾)** 分别独立进行样本划分与建模 | | **评估指标** | 1. 决定系数 R2R\^2R2(Rc2R_c\^2Rc2、Rp2R_p\^2Rp2) 2. 均方根误差 RMSE(RMSEC、RMSEP) 3. 相对分析误差 RPD | ## 2、常见评估指标介绍 | 评估指标 | 计算公式 | 核心计算逻辑 | 要解决的核心问题 | 计算设计的解决原理(为什么这样算) | 核心优点 | |:-------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------|:-----------------------------|:-----------------------------------|:----------------------------| | 决定系数 R2R\^2R2 | R2=1−∑i=1n(yi−y\^i)2∑i=1n(yi−yˉ)2\\displaystyle R\^2=1-\\frac{\\sum_{i=1}\^n (y_i-\\hat{y}_i)\^2}{\\sum_{i=1}\^n (y_i-\\bar{y})\^2}R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y\^i)2 | 用**残差变异/总变异**的占比,衡量模型解释数据变异的比例 | 无法量化模型解释力、不同数据集/单位无法直接对比拟合效果 | 以"变异比例"消除单位与量级差异,用1减去未解释变异,直观反映拟合度 | 无量纲、取值0\~1、跨数据集可对比、直观反映解释能力 | | 均方根误差 RMSERMSERMSE | RMSE=1n∑i=1n(yi−y\^i)2\\displaystyle RMSE=\\sqrt{\\frac{1}{n}\\sum_{i=1}\^n (y_i-\\hat{y}_i)\^2}RMSE=n1i=1∑n(yi−y\^i)2 | 误差平方→平均→开平方,**放大并惩罚大误差** | 需要量化绝对预测精度,且识别模型的严重错误预测 | 平方操作放大大误差,开平方恢复原始单位,精准反映整体预测偏差 | 带物理单位、对异常值敏感、可直观衡量预测精准度 | | 平均绝对误差 MAEMAEMAE | MAE=1n∑i=1n∣yi−y\^i∣\\displaystyle MAE=\\frac{1}{n}\\sum_{i=1}\^n \\vert y_i-\\hat{y}_i \\vertMAE=n1i=1∑n∣yi−y\^i∣ | 误差取绝对值后直接平均,**等权对待所有误差** | RMSE受异常值干扰,无法客观评价模型平均稳定性 | 用绝对值替代平方,不放大极端误差,真实反映平均偏差水平 | 抗异常值、计算稳定、客观衡量模型预测稳健性 | | 相对分析误差 RPDRPDRPD | RPD=SDRMSEP,SD=1n−1∑i=1n(yi−yˉ)2\\displaystyle RPD=\\frac{SD}{RMSEP}, SD=\\sqrt{\\frac{1}{n-1}\\sum_{i=1}\^n (y_i-\\bar{y})\^2}RPD=RMSEPSD,SD=n−11i=1∑n(yi−yˉ)2 | 数据标准差/预测误差,**误差相对数据波动的比值** | 单一RMSE受数据分布影响,无法判定模型实际应用价值 | 用比值消除数据自身波动差异,直接衡量误差相对于数据的可控程度 | 无量纲、跨研究可比、有明确判定阈值、直接评估模型可用性 | ## 3、数据预处理 ## 4、训练 ## 5、推理