思路启发:超越Transformer的无限上下文:SSM-Attention混合架构的理论分析作者: 小lo爱吃棒棒糖¹, GLM-5²本文研究一种结合状态空间模型(SSM/Mamba)线性推理效率与Transformer精确回忆能力的混合架构。我们建立了严格的数学框架,证明该混合架构在保持10810^8108量级Token上下文窗口的同时,可实现推理成本的次线性增长O(Nα)\mathcal{O}(N^\alpha)O(Nα),其中α<1\alpha < 1α<1。主要理论贡献包括:(1) 证明SSM的长程记忆容量上界与状态维度的指数关系;(2) 给出Attention-SSM混合层的最优分配策