Mambular:表格深度学习的顺序模型

Mambular: A Sequential Model for Tabular Deep Learning

https://github.com/basf/mamba-tabular

https://arxiv.org/pdf/2408.06291

Abstract

The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. We introduce Mambular, an adaptation of the Mamba architecture optimized for tabular data. We extensively benchmark Mambular against state-of-the-art models, including neural networks and tree-based methods, and demonstrate its competitive performance across diverse datasets. Additionally, we explore various adaptations of Mambular to understand its effectiveness for tabular data. We investigate different pooling strategies, feature interaction mechanisms, and bi-directional processing. Our analysis shows that interpreting features as a sequence and passing them through Mamba layers results in surprisingly performant models. The results highlight Mambular's potential as a versatile and powerful architecture for tabular data analysis, expanding the scope of deep learning applications in this domain.

传统上,表格数据的分析主要由梯度提升决策树(GBDTs)主导,这些决策树在处理混合的类别和数值特征方面表现出色。然而,最近的深度学习创新正在挑战这一主导地位。

本文引入了Mambular,这是一种针对表格数据优化的Mamba架构的变体。

本文广泛地将Mambular与最先进的模型(包括神经网络和基于树的方法)进行基准测试,并展示了其在不同数据集上的竞争性能。

此外,本文还探索了Mambular的各种变体,以了解其对于表格数据的有效性。

本文研究了不同的池化策略、特征交互机制和双向处理。

分析表明,将特征视为序列并通过Mamba层传递它们,可以得到出人意料的高性能模型。这些结果凸显了Mambular作为表格数据分析的一种多功能且强大的架构的潜力,扩展了深度学习在该领域的应用范围。

Introruction

梯度提升决策树(GBDTs,包括XGBoost、LightGBM和CatBoost等变体)长期以来在表格数据分析领域占据主导地位,擅长处理表格数据特有的混合类别和数值特征。然而,由于表格数据的复杂性和多样性,深度学习模型历史上在处理缺失值、多样特征类型及需要广泛预处理等方面存在挑战,往往难以超越GBDTs。但近年来,深度学习通过引入创新的架构来捕获复杂的特征依赖关系,逐渐挑战了这一范式,并有望带来显著改善。

其中,表格式深度学习的一个有效进展是在模型中应用注意力机制,如TabTransformer和FT-Transformer等,这些模型利用注意力机制捕捉特征间的依赖关系,显著优于传统方法。特别是FT-Transformer在多个表格数据集上表现出色,甚至超过了GBDTs的准确度。

此外,经过精心设计和充分预处理后,多层感知器(MLPs)和ResNets等传统模型也取得了改进,这得益于先进的预处理方法的创新。

最近,Mamba架构在文本问题中展示了有前景的结果,甚至在DNA建模和大语言模型(LLMs)等原本由Transformer架构主导的任务中也取得了改进。Mamba已被广泛适应于不同领域,如图像分类、视频分析、点云分析以及时间序列问题等,并表现出色。此外,Mamba还被整合到图学习和模仿学习中。

Mamba架构已通过多种适应展示了其多功能性,如用于图像分类、视频分析和点云分析。此外,该架构还被成功应用于时间序列问题,并融入了图学习和模仿学习。通过引入注意力机制、专家混合或双向序列处理等改进,进一步提升了语言模型。

这些进展凸显了Mamba架构的广泛应用性,使其成为处理各种任务和数据类型的强大且灵活的架构。类似于Transformer架构,人们开始探讨Mamba架构是否也能应用于表格数据问题。尽管已证明Mamba架构可用于表格数据,但仍需对模型架构进行更深入的分析,并探索针对表格数据集的优化方法。

本文的贡献可以总结如下:

1 提出了Mambular,它是Mamba架构针对表格数据的一种适应性变体,并展示了序列模型在表格问题中的适用性。

2 将Mambular与多种其他具有竞争力的神经网络以及基于树的方法进行了广泛的基准测试,结果表明,默认的Mambular模型在广泛的数据集上与基于树的模型性能相当或更优。

3 分析了双向处理以及特征交互层对Mambular性能的影响,并比较了经典的池化方法。

4 对Mambular的序列性质进行了深入分析,探讨了序列表格模型中特征排序的影响。

相关推荐
LCG元6 分钟前
大模型驱动的围术期质控系统全面解析与应用探索
人工智能
lihuayong17 分钟前
计算机视觉:主流数据集整理
人工智能·计算机视觉·mnist数据集·coco数据集·图像数据集·cifar-10数据集·imagenet数据集
政安晨26 分钟前
政安晨【零基础玩转各类开源AI项目】DeepSeek 多模态大模型Janus-Pro-7B,本地部署!支持图像识别和图像生成
人工智能·大模型·多模态·deepseek·janus-pro-7b
一ge科研小菜鸡31 分钟前
DeepSeek 与后端开发:AI 赋能云端架构与智能化服务
人工智能·云原生
冰 河33 分钟前
‌最新版DeepSeek保姆级安装教程:本地部署+避坑指南
人工智能·程序员·openai·deepseek·冰河大模型
维维180-3121-145535 分钟前
AI赋能生态学暨“ChatGPT+”多技术融合在生态系统服务中的实践技术应用与论文撰写
人工智能·chatgpt
終不似少年遊*1 小时前
词向量与词嵌入
人工智能·深度学习·nlp·机器翻译·词嵌入
杜大哥1 小时前
如何在WPS打开的word、excel文件中,使用AI?
人工智能·word·excel·wps
Leiditech__1 小时前
人工智能时代电子机器人静电问题及电路设计防范措施
人工智能·嵌入式硬件·机器人·硬件工程
谨慎谦虚2 小时前
Trae 体验:探索被忽视的 Chat 模式
人工智能·trae