记录xgboost等基于决策树的集成模型存在的问题

最近做基于辐照度的光伏预测,在数据量很少的情况下,采用xgboost遇到一个问题,就是预测值在正午时分全部是一样的,经过多轮测试及与豆包对话找到了原因。

豆包解释:XGBoost 的预测特性:XGBoost 对于超出训练数据分布的特征值,预测结果会趋于一个固定值(你的情况就是 0.07105778),这是模型的泛化特性导致的。

XGBoost(以及所有基于决策树的集成模型,如随机森林、LightGBM)之所以会出现 "遇到超出训练范围的特征值时,预测值趋于常数" 的现象,是因为决策树是基于 "轴平行" 的分裂(Axis-Aligned Splitting)

简单来说,树模型在训练数据的最大值(例如 GHI=1.0)之后,就没有继续分裂的规则了,它不知道 1.0 之后的趋势是上升、下降还是保持不变,因此只能输出该叶子节点上训练数据的平均值。

当然和豆包说的不完全一致,因为我的ghi归一化后确定没有超过1.0,所以我怀疑主要原因是数据量太少(10天左右),加上ghi和光伏数据归一化后范围比较小(荷兰冬季辐照度最高只有200多,发电效率只有20~30%),综合导致这种问题。

换成线性模型后不再出现这种问题。

相关推荐
Turboex邮件分享3 小时前
邮件系统的未来趋势:AI、机器学习与大数据分析的融合应用
人工智能·机器学习·数据分析
爱打代码的小林3 小时前
机器学习(数据清理)
人工智能·机器学习
光羽隹衡3 小时前
机器学习——PCA数据降维
人工智能·机器学习
ACERT3333 小时前
10.吴恩达机器学习——无监督学习01聚类与异常检测算法
python·算法·机器学习
Ai尚研修-贾莲3 小时前
自然科学领域机器学习与深度学习——高维数据预处理—可解释ML/DL—时空建模—不确定性量化-全程AI+Python场景
人工智能·深度学习·机器学习·自然科学·时空建模·高维数据预处理·可解释ml/dl
赵域Phoenix3 小时前
赵煜的时序建模学习手札——三种路线概览(统计学/机器学习/深度学习)
深度学习·机器学习
格林威4 小时前
纹理表面缺陷分析:利用频域变换检测织物疵点的 6 种技术,附 OpenCV+Halcon 实战代码!
人工智能·opencv·机器学习·计算机视觉·视觉检测·工业相机·堡盟相机
computersciencer4 小时前
详细讲解最小二乘法名称的由来
人工智能·机器学习·最小二乘法
式5165 小时前
RAG检索增强生成基础(一)RAG基础原理
人工智能·机器学习