FunPapers[1]: GBDT和DNN强强联手,表格预测新突破!

Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs

核心思想

融合GBDT和DNN优势,提出高效表格数据预测框架T-MLP。

论文概述

虽然深度模型在各个领域大放光彩,但在表格数据领域,树模型(GBDT)和深度模型(DNN)谁更胜一筹仍在上演龙虎之争!特别是在Kaggle等数据科学竞赛平台上,树模型仍常位居榜首。工业界,深度模型在各个岗位上发光发热,但仍少不了一些树模型在某些角落打螺丝。

GBDT和DNN各有其优势和缺点。

模型 优势 不足
GBDT 1.对数据分布和特征交互有较好的适应性,在表格预测任务中出色且高效,随便一搞就是一个不错的基线。 2.低资源要求,可解释性好。 1.比较依赖特征工程。 2.在大规模表格数据下,推理延迟显著增加。 3.难以应用现有的优化算法。
DNN 1. 拥有高维特征空间,能够挖掘复杂的特征交互,在复杂数据场景中优势明显。 2. 模型表达能力强,理论上可以拟合任何函数关系。 1.容易过参数化,在小数据集上容易出现过拟合现象。 2.训练成本高:计算资源 + 训练时间。

针对这些问题,论文提出了Tree-hybrid MLP(T-MLP)方法,其核心思想是结合GBDT的特征选择和模型集成优势与DNN的高维特征空间和光滑优化特性,通过张量化GBDT特征门、DNN架构剪枝和反向传播协同训练MLP模型,以实现高效、有效的表数据预测。

方法介绍

具体来说,T-MLP包括以下几个关键步骤或模块:

  1. GBDT特征门控(GBDT Feature Gate,GFG)】

    先用GBDT在训练数据上学习一遍得到一个树模型,再利用这个树模型获得特征频率来选择对当前样本最重要的特征,通过张量化操作将GBDT的决策过程融入到DNN中,实现样本特定的特征选择。

  2. 纯MLP基本块(Pure MLP Basic Block) :采用简化版的MLP结构,通过空间门控单元(SGU)实现特征间的交互,保持模型的紧凑性。

  3. DNN架构剪枝(DNN Architecture Pruning) :借鉴GBDT的预剪枝思想,通过DNN剪枝技术减少模型参数,提高模型的泛化能力和训练效率。

实验分析

论文中也对比了不同模块的重要性,特地对比了使用神经网络门控,依然有一定效果。

另外一个有趣的实验是分析了不同模型的决策边界(FT-T表示FT-Transformer)。通过在两个数据集上的例子可以看出树模型和深度模型决策边界的明显区别:树模型决策边界通常是垂直的,深度模型是很光滑的(这也是深度模型容易过拟合的原因------拟合的太好了)。T-MLP看起来兼具了两者的特点,既有大致的垂直也有较光滑的边界。

结论

内核感觉就是特征权重,只是权重来源于树模型,有点像经典的GBDT+LR的方法。

不失为打比赛时的一种选择哦~

相关推荐
武子康3 小时前
AI研究-129 Qwen2.5-Omni-7B 要点:显存、上下文、并发与成本
人工智能·深度学习·机器学习·ai·大模型·qwen·全模态
2301_7833601315 小时前
R语言机器学习系列|随机森林模型特征重要性排序的R语言实现
随机森林·机器学习·r语言
源码之家16 小时前
机器学习:基于python租房推荐系统 预测算法 协同过滤推荐算法 房源信息 可视化 机器学习-线性回归预测模型 Flask框架(源码+文档)✅
大数据·python·算法·机器学习·数据分析·线性回归·推荐算法
小狗照亮每一天20 小时前
【菜狗看背景】自动驾驶发展背景——20251117
人工智能·机器学习·自动驾驶
大白IT20 小时前
智能驾驶:从感知到规控的自动驾驶系统全解析
人工智能·机器学习·自动驾驶
数据与后端架构提升之路20 小时前
英伟达的 Alpamayo-R1:利用因果链推理赋能自动驾驶模型和数据工程剖析
人工智能·机器学习·自动驾驶
致Great21 小时前
RAG在医疗领域的批判性评估、推荐算法等最新研究进展
算法·机器学习·推荐算法
java1234_小锋1 天前
[免费]基于python的Flask+Vue医疗疾病数据分析大屏可视化系统(机器学习随机森林算法+requests)【论文+源码+SQL脚本】
python·机器学习·数据分析·flask·疾病数据分析
权泽谦1 天前
Java 在机器学习中的应用:基于 DL4J 与 Weka 的完整实战案例
java·机器学习·数据挖掘
檐下翻书1731 天前
流程图配色与美化:让你的图表会“说话”
论文阅读·人工智能·信息可视化·流程图·论文笔记