FunPapers[1]: GBDT和DNN强强联手,表格预测新突破!

Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs

核心思想

融合GBDT和DNN优势,提出高效表格数据预测框架T-MLP。

论文概述

虽然深度模型在各个领域大放光彩,但在表格数据领域,树模型(GBDT)和深度模型(DNN)谁更胜一筹仍在上演龙虎之争!特别是在Kaggle等数据科学竞赛平台上,树模型仍常位居榜首。工业界,深度模型在各个岗位上发光发热,但仍少不了一些树模型在某些角落打螺丝。

GBDT和DNN各有其优势和缺点。

模型 优势 不足
GBDT 1.对数据分布和特征交互有较好的适应性,在表格预测任务中出色且高效,随便一搞就是一个不错的基线。 2.低资源要求,可解释性好。 1.比较依赖特征工程。 2.在大规模表格数据下,推理延迟显著增加。 3.难以应用现有的优化算法。
DNN 1. 拥有高维特征空间,能够挖掘复杂的特征交互,在复杂数据场景中优势明显。 2. 模型表达能力强,理论上可以拟合任何函数关系。 1.容易过参数化,在小数据集上容易出现过拟合现象。 2.训练成本高:计算资源 + 训练时间。

针对这些问题,论文提出了Tree-hybrid MLP(T-MLP)方法,其核心思想是结合GBDT的特征选择和模型集成优势与DNN的高维特征空间和光滑优化特性,通过张量化GBDT特征门、DNN架构剪枝和反向传播协同训练MLP模型,以实现高效、有效的表数据预测。

方法介绍

具体来说,T-MLP包括以下几个关键步骤或模块:

  1. GBDT特征门控(GBDT Feature Gate,GFG)】

    先用GBDT在训练数据上学习一遍得到一个树模型,再利用这个树模型获得特征频率来选择对当前样本最重要的特征,通过张量化操作将GBDT的决策过程融入到DNN中,实现样本特定的特征选择。

  2. 纯MLP基本块(Pure MLP Basic Block) :采用简化版的MLP结构,通过空间门控单元(SGU)实现特征间的交互,保持模型的紧凑性。

  3. DNN架构剪枝(DNN Architecture Pruning) :借鉴GBDT的预剪枝思想,通过DNN剪枝技术减少模型参数,提高模型的泛化能力和训练效率。

实验分析

论文中也对比了不同模块的重要性,特地对比了使用神经网络门控,依然有一定效果。

另外一个有趣的实验是分析了不同模型的决策边界(FT-T表示FT-Transformer)。通过在两个数据集上的例子可以看出树模型和深度模型决策边界的明显区别:树模型决策边界通常是垂直的,深度模型是很光滑的(这也是深度模型容易过拟合的原因------拟合的太好了)。T-MLP看起来兼具了两者的特点,既有大致的垂直也有较光滑的边界。

结论

内核感觉就是特征权重,只是权重来源于树模型,有点像经典的GBDT+LR的方法。

不失为打比赛时的一种选择哦~

相关推荐
WBluuue3 小时前
数学建模:智能优化算法
python·机器学习·数学建模·爬山算法·启发式算法·聚类·模拟退火算法
赴3353 小时前
矿物分类案列 (一)六种方法对数据的填充
人工智能·python·机器学习·分类·数据挖掘·sklearn·矿物分类
一车小面包3 小时前
机器学习--决策树
决策树·机器学习
小艳加油4 小时前
Python机器学习与深度学习;Transformer模型/注意力机制/目标检测/语义分割/图神经网络/强化学习/生成式模型/自监督学习/物理信息神经网络等
python·深度学习·机器学习·transformer
Silence zero5 小时前
day43_2025-08-17
人工智能·深度学习·机器学习
学行库小秘5 小时前
ANN神经网络回归预测模型
人工智能·python·深度学习·神经网络·算法·机器学习·回归
Coovally AI模型快速验证6 小时前
SOD-YOLO:基于YOLO的无人机图像小目标检测增强方法
人工智能·yolo·目标检测·机器学习·计算机视觉·目标跟踪·无人机
音视频牛哥7 小时前
从「行走」到「思考」:机器人进化之路与感知—决策链路的工程化实践
机器学习·机器人·音视频开发
数据智能老司机10 小时前
面向企业的图学习扩展——面向图的传统机器学习
算法·机器学习
星期天要睡觉11 小时前
机器学习——CountVectorizer将文本集合转换为 基于词频的特征矩阵
人工智能·机器学习·矩阵