Mambular:表格深度学习的顺序模型

Mambular: A Sequential Model for Tabular Deep Learning

Abstract

The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. We introduce Mambular, an adaptation of the Mamba architecture optimized for tabular data. We extensively benchmark Mambular against state-of-the-art models, including neural networks and tree-based methods, and demonstrate its competitive performance across diverse datasets. Additionally, we explore various adaptations of Mambular to understand its effectiveness for tabular data. We investigate different pooling strategies, feature interaction mechanisms, and bi-directional processing. Our analysis shows that interpreting features as a sequence and passing them through Mamba layers results in surprisingly performant models. The results highlight Mambular's potential as a versatile and powerful architecture for tabular data analysis, expanding the scope of deep learning applications in this domain.

传统上，表格数据的分析主要由梯度提升决策树（GBDTs）主导，这些决策树在处理混合的类别和数值特征方面表现出色。然而，最近的深度学习创新正在挑战这一主导地位。

本文引入了Mambular，这是一种针对表格数据优化的Mamba架构的变体。

本文广泛地将Mambular与最先进的模型（包括神经网络和基于树的方法）进行基准测试，并展示了其在不同数据集上的竞争性能。

此外，本文还探索了Mambular的各种变体，以了解其对于表格数据的有效性。

本文研究了不同的池化策略、特征交互机制和双向处理。

分析表明，将特征视为序列并通过Mamba层传递它们，可以得到出人意料的高性能模型。这些结果凸显了Mambular作为表格数据分析的一种多功能且强大的架构的潜力，扩展了深度学习在该领域的应用范围。

Introruction

梯度提升决策树（GBDTs，包括XGBoost、LightGBM和CatBoost等变体）长期以来在表格数据分析领域占据主导地位，擅长处理表格数据特有的混合类别和数值特征。然而，由于表格数据的复杂性和多样性，深度学习模型历史上在处理缺失值、多样特征类型及需要广泛预处理等方面存在挑战，往往难以超越GBDTs。但近年来，深度学习通过引入创新的架构来捕获复杂的特征依赖关系，逐渐挑战了这一范式，并有望带来显著改善。

其中，表格式深度学习的一个有效进展是在模型中应用注意力机制，如TabTransformer和FT-Transformer等，这些模型利用注意力机制捕捉特征间的依赖关系，显著优于传统方法。特别是FT-Transformer在多个表格数据集上表现出色，甚至超过了GBDTs的准确度。

此外，经过精心设计和充分预处理后，多层感知器（MLPs）和ResNets等传统模型也取得了改进，这得益于先进的预处理方法的创新。

最近，Mamba架构在文本问题中展示了有前景的结果，甚至在DNA建模和大语言模型（LLMs）等原本由Transformer架构主导的任务中也取得了改进。Mamba已被广泛适应于不同领域，如图像分类、视频分析、点云分析以及时间序列问题等，并表现出色。此外，Mamba还被整合到图学习和模仿学习中。

Mamba架构已通过多种适应展示了其多功能性，如用于图像分类、视频分析和点云分析。此外，该架构还被成功应用于时间序列问题，并融入了图学习和模仿学习。通过引入注意力机制、专家混合或双向序列处理等改进，进一步提升了语言模型。

这些进展凸显了Mamba架构的广泛应用性，使其成为处理各种任务和数据类型的强大且灵活的架构。类似于Transformer架构，人们开始探讨Mamba架构是否也能应用于表格数据问题。尽管已证明Mamba架构可用于表格数据，但仍需对模型架构进行更深入的分析，并探索针对表格数据集的优化方法。

本文的贡献可以总结如下：

1 提出了Mambular，它是Mamba架构针对表格数据的一种适应性变体，并展示了序列模型在表格问题中的适用性。

2 将Mambular与多种其他具有竞争力的神经网络以及基于树的方法进行了广泛的基准测试，结果表明，默认的Mambular模型在广泛的数据集上与基于树的模型性能相当或更优。

3 分析了双向处理以及特征交互层对Mambular性能的影响，并比较了经典的池化方法。

4 对Mambular的序列性质进行了深入分析，探讨了序列表格模型中特征排序的影响。