transformer 挑战者 mamba 架构,线性attention RNN给改进iclr 2024拒稿
视频来源
https://www.bilibili.com/video/BV1ejVZ69EZK?spm_id_from=333.788.videopod.sections&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef&p=2
RNN遇到的问题
问题1解决
并行求和 ,相邻相加 log(N)计算量
同样适用于 ,其他运算、![]()
问题 来了 ,有d*d 矩阵,导致计算复杂度增加 解决办法 ,对角矩阵
问题2解决
Rnn为什么难训练
假设Rnn 后面都设置为0
加上变化后
相减
w算了n-1幂,梯度爆炸 梯度消失,其他模型没有这个问题,是因为每一层权重不同
解决 ,权重初始化,2个初始化
ssm 其实就是rnn
为什么性能差
在这里插入图片描述
iclr 2024拒稿
ICLR2024 Mamba拒稿全复盘|打分8/8/6/3却惨遭拒收、后续逆袭获奖
一、基础背景
论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces(CMU+普林斯顿),2023.12上线Arxiv,发布即引爆AI圈,被视作Transformer颠覆者:线性复杂度长序列建模、推理吞吐是Transformer5倍、超长文本性能碾压主流架构。
ICLR2024审稿分数:4位审稿8、8、6、3(2高分+1中等+1致命低分),先进入Decision Pending待定,最终正式拒稿,全网学术圈震动,LeCun、Sasha Rush等大佬公开质疑评审结果。
二、核心拒稿原因(区域主席终审采信3分审稿人意见,作者反驳未说服评审)
1. 长序列基准缺失(最关键硬伤)
- 缺少**LRA(Long Range Arena)**长序列标准数据集实验,SSM(状态空间模型)领域论文惯例必测LRA,审稿认定无法证明Mamba长距离建模能力;
- 缺少长文本生成实测:摘要、问答、超长文档(>8k token)落地效果,仅靠合成任务验证外推能力说服力不足。
2. 评测指标选型争议
论文只用PPL困惑度作为核心指标,审稿援引多篇NLP论文结论:低PPL≠真实生成能力强,大量模型PPL优异,但摘要、对话落地拉胯,单PPL无法支撑Mamba有效性结论。
3. 对比实验不完善
- 未充分对标同赛道SSM基线:H3、S4、MEGA、SGConv,同架构竞品PPL优于Mamba却无详细对照;
- 效率实验只测推理速度、缺失显存占用数据,审稿质疑:Mamba训练阶段仍存在类Transformer二次显存开销,线性优势仅限推理阶段,论文刻意隐瞒短板。
4. 创新与实验细节瑕疵
- “选择性输入”命名存疑:软门控机制和GRU门控高度相似,缺少和离散选择类前人工作对比;
- 长度外推仅在简单合成任务生效,真实文本无法实现无限外推,论文标题宣传过度;
- 缩放定律、参数量对比设置模糊,缺少不同参数量(10B级别)大模型对标Transformer实验(实测补充实验算力成本超5万美元)。
三、行业舆论风波
- 康奈尔Sasha Rush直言:Mamba被拒,我们普通研究者论文更没出路,业内学者集体玩梗“小丑投稿”;
- LeCun吐槽ICLR评审愈发僵化,丢掉初创时开放的评审初心;
- 网友对标:Word2vec早年同样ICLR拒稿,后续拿NeurIPS时间检验奖,顶会拒稿不代表学术价值失效。
四、Mamba后续逆袭路线
- Mamba初代原文:补充全套LRA、生成任务实验后转投COLM 2024(首届语言建模顶会),斩获杰出论文(全会议仅4篇杰出);
- 迭代版Mamba-2:统一SSM+注意力架构,直接被ICML2024正式录用;
- 生态爆发:Vision Mamba、多模态Mamba、MoE-Mamba全系列落地,成为工业长文本、大模型主流备选架构。
五、播客/短视频文案精简版(可直接配音)
曾被ICLR拒稿的黑马Mamba,如今成大模型标配架构!四份审稿两满分、一份及格、一份不及格,8863的神仙打分惨遭顶会拒收,只因缺LRA实验、只用困惑度做评测。被质疑虚标长序列性能后,作者补全实验转投COLM拿下最佳论文,续作Mamba-2稳收ICML,完美复刻Word2vec当年被拒封神的名场面。
