transformer 挑战者 mamba 架构,线性attention RNN给改进iclr 2024拒稿

视频来源

https://www.bilibili.com/video/BV1ejVZ69EZK?spm_id_from=333.788.videopod.sections\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef\&p=2

RNN遇到的问题

问题1解决

并行求和 ,相邻相加 log(N)计算量

同样适用于 ,其他运算、

问题 来了 ,有d*d 矩阵,导致计算复杂度增加 解决办法 ,对角矩阵

问题2解决

Rnn为什么难训练

假设Rnn 后面都设置为0

加上变化后
相减
w算了n-1幂,梯度爆炸 梯度消失,其他模型没有这个问题,是因为每一层权重不同
解决 ,权重初始化,2个初始化

ssm 其实就是rnn

为什么性能差

在这里插入图片描述

iclr 2024拒稿

ICLR2024 Mamba拒稿全复盘|打分8/8/6/3却惨遭拒收、后续逆袭获奖

一、基础背景

论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces(CMU+普林斯顿) ,2023.12上线Arxiv,发布即引爆AI圈,被视作Transformer颠覆者 :线性复杂度长序列建模、推理吞吐是Transformer5倍、超长文本性能碾压主流架构。

ICLR2024审稿分数:4位审稿8、8、6、3 (2高分+1中等+1致命低分),先进入Decision Pending待定,最终正式拒稿,全网学术圈震动,LeCun、Sasha Rush等大佬公开质疑评审结果。

二、核心拒稿原因(区域主席终审采信3分审稿人意见,作者反驳未说服评审)

1. 长序列基准缺失(最关键硬伤)

  • 缺少**LRA(Long Range Arena)**长序列标准数据集实验,SSM(状态空间模型)领域论文惯例必测LRA,审稿认定无法证明Mamba长距离建模能力;
  • 缺少长文本生成实测:摘要、问答、超长文档(>8k token)落地效果,仅靠合成任务验证外推能力说服力不足。

2. 评测指标选型争议

论文只用PPL困惑度 作为核心指标,审稿援引多篇NLP论文结论:低PPL≠真实生成能力强,大量模型PPL优异,但摘要、对话落地拉胯,单PPL无法支撑Mamba有效性结论。

3. 对比实验不完善

  1. 未充分对标同赛道SSM基线:H3、S4、MEGA、SGConv,同架构竞品PPL优于Mamba却无详细对照;
  2. 效率实验只测推理速度、缺失显存占用数据,审稿质疑:Mamba训练阶段仍存在类Transformer二次显存开销,线性优势仅限推理阶段,论文刻意隐瞒短板。

4. 创新与实验细节瑕疵

  • "选择性输入"命名存疑:软门控机制和GRU门控高度相似,缺少和离散选择类前人工作对比;
  • 长度外推仅在简单合成任务生效,真实文本无法实现无限外推,论文标题宣传过度;
  • 缩放定律、参数量对比设置模糊,缺少不同参数量(10B级别)大模型对标Transformer实验(实测补充实验算力成本超5万美元)。

三、行业舆论风波

  1. 康奈尔Sasha Rush直言:Mamba被拒,我们普通研究者论文更没出路,业内学者集体玩梗"小丑投稿";
  2. LeCun吐槽ICLR评审愈发僵化,丢掉初创时开放的评审初心;
  3. 网友对标:Word2vec早年同样ICLR拒稿,后续拿NeurIPS时间检验奖,顶会拒稿不代表学术价值失效。

四、Mamba后续逆袭路线

  1. Mamba初代原文 :补充全套LRA、生成任务实验后转投COLM 2024(首届语言建模顶会),斩获杰出论文(全会议仅4篇杰出);
  2. 迭代版Mamba-2 :统一SSM+注意力架构,直接被ICML2024正式录用
  3. 生态爆发:Vision Mamba、多模态Mamba、MoE-Mamba全系列落地,成为工业长文本、大模型主流备选架构。

五、播客/短视频文案精简版(可直接配音)

曾被ICLR拒稿的黑马Mamba,如今成大模型标配架构!四份审稿两满分、一份及格、一份不及格,8863的神仙打分惨遭顶会拒收,只因缺LRA实验、只用困惑度做评测。被质疑虚标长序列性能后,作者补全实验转投COLM拿下最佳论文,续作Mamba-2稳收ICML,完美复刻Word2vec当年被拒封神的名场面。

相关推荐
YOLO数据集集合1 小时前
输电线缺陷目标检测|无人机电力巡检深度学习数据集|电网线缆散股智能识别数据
人工智能·深度学习·yolo·目标检测·无人机
王天天(Bennet)1 小时前
【从第一性原理来深入理解Transformer-更适合入门的理解(llama-3B模型为例)】
深度学习·transformer·llama
Kobebryant-Manba2 小时前
安装cuda
pytorch·python·深度学习·conda·numpy
动物园猫3 小时前
无人机角度的道路损害检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·无人机
手写码匠3 小时前
手写 Prefix Caching:从零构建 LLM 提示词缓存引擎
人工智能·深度学习·算法·aigc
AI人工智能+4 小时前
基于深度学习与计算机视觉的表格识别技术:不仅能精准提取表格中的文字内容,更能深度解析复杂的表格结构,实现版面信息的完美还原
深度学习·计算机视觉·自然语言处理·ocr·表格识别
盼小辉丶4 小时前
PyTorch强化学习实战(11)——N步DQN(N-step DQN)
pytorch·python·深度学习·强化学习
睡个好觉(努力提升自己版)4 小时前
2026_TIP_image_Restoration(最新方法)
人工智能·深度学习·机器学习