Mambular:表格深度学习的顺序模型

Mambular: A Sequential Model for Tabular Deep Learning

https://github.com/basf/mamba-tabular

https://arxiv.org/pdf/2408.06291

Abstract

The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. We introduce Mambular, an adaptation of the Mamba architecture optimized for tabular data. We extensively benchmark Mambular against state-of-the-art models, including neural networks and tree-based methods, and demonstrate its competitive performance across diverse datasets. Additionally, we explore various adaptations of Mambular to understand its effectiveness for tabular data. We investigate different pooling strategies, feature interaction mechanisms, and bi-directional processing. Our analysis shows that interpreting features as a sequence and passing them through Mamba layers results in surprisingly performant models. The results highlight Mambular's potential as a versatile and powerful architecture for tabular data analysis, expanding the scope of deep learning applications in this domain.

传统上,表格数据的分析主要由梯度提升决策树(GBDTs)主导,这些决策树在处理混合的类别和数值特征方面表现出色。然而,最近的深度学习创新正在挑战这一主导地位。

本文引入了Mambular,这是一种针对表格数据优化的Mamba架构的变体。

本文广泛地将Mambular与最先进的模型(包括神经网络和基于树的方法)进行基准测试,并展示了其在不同数据集上的竞争性能。

此外,本文还探索了Mambular的各种变体,以了解其对于表格数据的有效性。

本文研究了不同的池化策略、特征交互机制和双向处理。

分析表明,将特征视为序列并通过Mamba层传递它们,可以得到出人意料的高性能模型。这些结果凸显了Mambular作为表格数据分析的一种多功能且强大的架构的潜力,扩展了深度学习在该领域的应用范围。

Introruction

梯度提升决策树(GBDTs,包括XGBoost、LightGBM和CatBoost等变体)长期以来在表格数据分析领域占据主导地位,擅长处理表格数据特有的混合类别和数值特征。然而,由于表格数据的复杂性和多样性,深度学习模型历史上在处理缺失值、多样特征类型及需要广泛预处理等方面存在挑战,往往难以超越GBDTs。但近年来,深度学习通过引入创新的架构来捕获复杂的特征依赖关系,逐渐挑战了这一范式,并有望带来显著改善。

其中,表格式深度学习的一个有效进展是在模型中应用注意力机制,如TabTransformer和FT-Transformer等,这些模型利用注意力机制捕捉特征间的依赖关系,显著优于传统方法。特别是FT-Transformer在多个表格数据集上表现出色,甚至超过了GBDTs的准确度。

此外,经过精心设计和充分预处理后,多层感知器(MLPs)和ResNets等传统模型也取得了改进,这得益于先进的预处理方法的创新。

最近,Mamba架构在文本问题中展示了有前景的结果,甚至在DNA建模和大语言模型(LLMs)等原本由Transformer架构主导的任务中也取得了改进。Mamba已被广泛适应于不同领域,如图像分类、视频分析、点云分析以及时间序列问题等,并表现出色。此外,Mamba还被整合到图学习和模仿学习中。

Mamba架构已通过多种适应展示了其多功能性,如用于图像分类、视频分析和点云分析。此外,该架构还被成功应用于时间序列问题,并融入了图学习和模仿学习。通过引入注意力机制、专家混合或双向序列处理等改进,进一步提升了语言模型。

这些进展凸显了Mamba架构的广泛应用性,使其成为处理各种任务和数据类型的强大且灵活的架构。类似于Transformer架构,人们开始探讨Mamba架构是否也能应用于表格数据问题。尽管已证明Mamba架构可用于表格数据,但仍需对模型架构进行更深入的分析,并探索针对表格数据集的优化方法。

本文的贡献可以总结如下:

1 提出了Mambular,它是Mamba架构针对表格数据的一种适应性变体,并展示了序列模型在表格问题中的适用性。

2 将Mambular与多种其他具有竞争力的神经网络以及基于树的方法进行了广泛的基准测试,结果表明,默认的Mambular模型在广泛的数据集上与基于树的模型性能相当或更优。

3 分析了双向处理以及特征交互层对Mambular性能的影响,并比较了经典的池化方法。

4 对Mambular的序列性质进行了深入分析,探讨了序列表格模型中特征排序的影响。

相关推荐
paixiaoxin35 分钟前
CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究
人工智能·深度学习·机器学习·生成对抗网络·计算机视觉·ocr·.net
OpenCSG1 小时前
CSGHub开源版本v1.2.0更新
人工智能
weixin_515202491 小时前
第R3周:RNN-心脏病预测
人工智能·rnn·深度学习
Altair澳汰尔1 小时前
数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者
人工智能·算法·机器学习·数据分析·知识图谱
机器之心1 小时前
图学习新突破:一个统一框架连接空域和频域
人工智能·后端
AI视觉网奇1 小时前
人脸生成3d模型 Era3D
人工智能·计算机视觉
call me by ur name1 小时前
VLM--CLIP作分类任务的损失函数
人工智能·机器学习·分类
吃个糖糖2 小时前
34 Opencv 自定义角点检测
人工智能·opencv·计算机视觉
禁默2 小时前
2024年图像处理、多媒体技术与机器学习
图像处理·人工智能·microsoft
KeepThinking!2 小时前
YOLO-World:Real-Time Open-Vocabulary Object Detection
人工智能·yolo·目标检测·多模态