transformer 挑战者 mamba 架构,线性attention RNN给改进iclr 2024拒稿

视频来源

https://www.bilibili.com/video/BV1ejVZ69EZK?spm_id_from=333.788.videopod.sections\&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef\&p=2

RNN遇到的问题

问题1解决

并行求和 ,相邻相加 log(N)计算量

同样适用于 ,其他运算、

问题 来了 ,有d*d 矩阵,导致计算复杂度增加 解决办法 ,对角矩阵

问题2解决

Rnn为什么难训练

假设Rnn 后面都设置为0

加上变化后
相减
w算了n-1幂,梯度爆炸 梯度消失,其他模型没有这个问题,是因为每一层权重不同
解决 ,权重初始化,2个初始化

ssm 其实就是rnn

为什么性能差

在这里插入图片描述

iclr 2024拒稿

ICLR2024 Mamba拒稿全复盘|打分8/8/6/3却惨遭拒收、后续逆袭获奖

一、基础背景

论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces(CMU+普林斯顿) ,2023.12上线Arxiv,发布即引爆AI圈,被视作Transformer颠覆者 :线性复杂度长序列建模、推理吞吐是Transformer5倍、超长文本性能碾压主流架构。

ICLR2024审稿分数:4位审稿8、8、6、3 (2高分+1中等+1致命低分),先进入Decision Pending待定,最终正式拒稿,全网学术圈震动,LeCun、Sasha Rush等大佬公开质疑评审结果。

二、核心拒稿原因(区域主席终审采信3分审稿人意见,作者反驳未说服评审)

1. 长序列基准缺失(最关键硬伤)

  • 缺少**LRA(Long Range Arena)**长序列标准数据集实验,SSM(状态空间模型)领域论文惯例必测LRA,审稿认定无法证明Mamba长距离建模能力;
  • 缺少长文本生成实测:摘要、问答、超长文档(>8k token)落地效果,仅靠合成任务验证外推能力说服力不足。

2. 评测指标选型争议

论文只用PPL困惑度 作为核心指标,审稿援引多篇NLP论文结论:低PPL≠真实生成能力强,大量模型PPL优异,但摘要、对话落地拉胯,单PPL无法支撑Mamba有效性结论。

3. 对比实验不完善

  1. 未充分对标同赛道SSM基线:H3、S4、MEGA、SGConv,同架构竞品PPL优于Mamba却无详细对照;
  2. 效率实验只测推理速度、缺失显存占用数据,审稿质疑:Mamba训练阶段仍存在类Transformer二次显存开销,线性优势仅限推理阶段,论文刻意隐瞒短板。

4. 创新与实验细节瑕疵

  • "选择性输入"命名存疑:软门控机制和GRU门控高度相似,缺少和离散选择类前人工作对比;
  • 长度外推仅在简单合成任务生效,真实文本无法实现无限外推,论文标题宣传过度;
  • 缩放定律、参数量对比设置模糊,缺少不同参数量(10B级别)大模型对标Transformer实验(实测补充实验算力成本超5万美元)。

三、行业舆论风波

  1. 康奈尔Sasha Rush直言:Mamba被拒,我们普通研究者论文更没出路,业内学者集体玩梗"小丑投稿";
  2. LeCun吐槽ICLR评审愈发僵化,丢掉初创时开放的评审初心;
  3. 网友对标:Word2vec早年同样ICLR拒稿,后续拿NeurIPS时间检验奖,顶会拒稿不代表学术价值失效。

四、Mamba后续逆袭路线

  1. Mamba初代原文 :补充全套LRA、生成任务实验后转投COLM 2024(首届语言建模顶会),斩获杰出论文(全会议仅4篇杰出);
  2. 迭代版Mamba-2 :统一SSM+注意力架构,直接被ICML2024正式录用
  3. 生态爆发:Vision Mamba、多模态Mamba、MoE-Mamba全系列落地,成为工业长文本、大模型主流备选架构。

五、播客/短视频文案精简版(可直接配音)

曾被ICLR拒稿的黑马Mamba,如今成大模型标配架构!四份审稿两满分、一份及格、一份不及格,8863的神仙打分惨遭顶会拒收,只因缺LRA实验、只用困惑度做评测。被质疑虚标长序列性能后,作者补全实验转投COLM拿下最佳论文,续作Mamba-2稳收ICML,完美复刻Word2vec当年被拒封神的名场面。

相关推荐
武子康2 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康3 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai48 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia18 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC8 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java9 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba9 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习
zhangfeng11339 天前
deepspeed zero3 结合 llamafactory 微调 ,save_only_model: true 导致保存时候出错
开发语言·python·深度学习
大模型最新论文速读9 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
宝贝儿好9 天前
【LLM】第二章:HuggingFace入门学习
人工智能·深度学习·神经网络·学习·算法·自然语言处理