transformer 挑战者 mamba 架构，线性attention RNN给改进iclr 2024拒稿

视频来源

https://www.bilibili.com/video/BV1ejVZ69EZK?spm_id_from=333.788.videopod.sections\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef\&p=2

RNN遇到的问题

问题1解决

并行求和，相邻相加 log(N)计算量

同样适用于，其他运算、

问题来了，有d*d 矩阵，导致计算复杂度增加解决办法，对角矩阵

问题2解决

Rnn为什么难训练

假设Rnn 后面都设置为0

加上变化后

相减

w算了n-1幂,梯度爆炸梯度消失，其他模型没有这个问题，是因为每一层权重不同

解决，权重初始化，2个初始化

ssm 其实就是rnn

为什么性能差

在这里插入图片描述

iclr 2024拒稿

ICLR2024 Mamba拒稿全复盘｜打分8/8/6/3却惨遭拒收、后续逆袭获奖

一、基础背景

论文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces（CMU+普林斯顿） ，2023.12上线Arxiv，发布即引爆AI圈，被视作Transformer颠覆者 ：线性复杂度长序列建模、推理吞吐是Transformer5倍、超长文本性能碾压主流架构。

ICLR2024审稿分数：4位审稿8、8、6、3 （2高分+1中等+1致命低分），先进入Decision Pending待定，最终正式拒稿，全网学术圈震动，LeCun、Sasha Rush等大佬公开质疑评审结果。

二、核心拒稿原因（区域主席终审采信3分审稿人意见，作者反驳未说服评审）

1. 长序列基准缺失（最关键硬伤）

缺少**LRA(Long Range Arena)**长序列标准数据集实验，SSM（状态空间模型）领域论文惯例必测LRA，审稿认定无法证明Mamba长距离建模能力；
缺少长文本生成实测：摘要、问答、超长文档（>8k token）落地效果，仅靠合成任务验证外推能力说服力不足。

2. 评测指标选型争议

论文只用PPL困惑度 作为核心指标，审稿援引多篇NLP论文结论：低PPL≠真实生成能力强，大量模型PPL优异，但摘要、对话落地拉胯，单PPL无法支撑Mamba有效性结论。

3. 对比实验不完善

未充分对标同赛道SSM基线：H3、S4、MEGA、SGConv，同架构竞品PPL优于Mamba却无详细对照；
效率实验只测推理速度、缺失显存占用数据，审稿质疑：Mamba训练阶段仍存在类Transformer二次显存开销，线性优势仅限推理阶段，论文刻意隐瞒短板。

4. 创新与实验细节瑕疵

"选择性输入"命名存疑：软门控机制和GRU门控高度相似，缺少和离散选择类前人工作对比；
长度外推仅在简单合成任务生效，真实文本无法实现无限外推，论文标题宣传过度；
缩放定律、参数量对比设置模糊，缺少不同参数量（10B级别）大模型对标Transformer实验（实测补充实验算力成本超5万美元）。

三、行业舆论风波

康奈尔Sasha Rush直言：Mamba被拒，我们普通研究者论文更没出路，业内学者集体玩梗"小丑投稿"；
LeCun吐槽ICLR评审愈发僵化，丢掉初创时开放的评审初心；
网友对标：Word2vec早年同样ICLR拒稿，后续拿NeurIPS时间检验奖，顶会拒稿不代表学术价值失效。

四、Mamba后续逆袭路线

Mamba初代原文 ：补充全套LRA、生成任务实验后转投COLM 2024（首届语言建模顶会），斩获杰出论文（全会议仅4篇杰出）；
迭代版Mamba-2 ：统一SSM+注意力架构，直接被ICML2024正式录用；
生态爆发：Vision Mamba、多模态Mamba、MoE-Mamba全系列落地，成为工业长文本、大模型主流备选架构。

五、播客/短视频文案精简版（可直接配音）

曾被ICLR拒稿的黑马Mamba，如今成大模型标配架构！四份审稿两满分、一份及格、一份不及格，8863的神仙打分惨遭顶会拒收，只因缺LRA实验、只用困惑度做评测。被质疑虚标长序列性能后，作者补全实验转投COLM拿下最佳论文，续作Mamba-2稳收ICML，完美复刻Word2vec当年被拒封神的名场面。