当前位置: 首页 > news >正文

transformer 挑战者 mamba 架构,线性attention RNN给改进iclr 2024拒稿

视频来源

https://www.bilibili.com/video/BV1ejVZ69EZK?spm_id_from=333.788.videopod.sections&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef&p=2

RNN遇到的问题

问题1解决

并行求和 ,相邻相加 log(N)计算量

同样适用于 ,其他运算、



问题 来了 ,有d*d 矩阵,导致计算复杂度增加 解决办法 ,对角矩阵







问题2解决

Rnn为什么难训练


假设Rnn 后面都设置为0

加上变化后

相减

w算了n-1幂,梯度爆炸 梯度消失,其他模型没有这个问题,是因为每一层权重不同
解决 ,权重初始化,2个初始化


ssm 其实就是rnn


为什么性能差




在这里插入图片描述

iclr 2024拒稿

ICLR2024 Mamba拒稿全复盘|打分8/8/6/3却惨遭拒收、后续逆袭获奖

一、基础背景

论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces(CMU+普林斯顿),2023.12上线Arxiv,发布即引爆AI圈,被视作Transformer颠覆者:线性复杂度长序列建模、推理吞吐是Transformer5倍、超长文本性能碾压主流架构。
ICLR2024审稿分数:4位审稿8、8、6、3(2高分+1中等+1致命低分),先进入Decision Pending待定,最终正式拒稿,全网学术圈震动,LeCun、Sasha Rush等大佬公开质疑评审结果。

二、核心拒稿原因(区域主席终审采信3分审稿人意见,作者反驳未说服评审)

1. 长序列基准缺失(最关键硬伤)

  • 缺少**LRA(Long Range Arena)**长序列标准数据集实验,SSM(状态空间模型)领域论文惯例必测LRA,审稿认定无法证明Mamba长距离建模能力;
  • 缺少长文本生成实测:摘要、问答、超长文档(>8k token)落地效果,仅靠合成任务验证外推能力说服力不足。

2. 评测指标选型争议

论文只用PPL困惑度作为核心指标,审稿援引多篇NLP论文结论:低PPL≠真实生成能力强,大量模型PPL优异,但摘要、对话落地拉胯,单PPL无法支撑Mamba有效性结论。

3. 对比实验不完善

  1. 未充分对标同赛道SSM基线:H3、S4、MEGA、SGConv,同架构竞品PPL优于Mamba却无详细对照;
  2. 效率实验只测推理速度、缺失显存占用数据,审稿质疑:Mamba训练阶段仍存在类Transformer二次显存开销,线性优势仅限推理阶段,论文刻意隐瞒短板。

4. 创新与实验细节瑕疵

  • “选择性输入”命名存疑:软门控机制和GRU门控高度相似,缺少和离散选择类前人工作对比;
  • 长度外推仅在简单合成任务生效,真实文本无法实现无限外推,论文标题宣传过度;
  • 缩放定律、参数量对比设置模糊,缺少不同参数量(10B级别)大模型对标Transformer实验(实测补充实验算力成本超5万美元)。

三、行业舆论风波

  1. 康奈尔Sasha Rush直言:Mamba被拒,我们普通研究者论文更没出路,业内学者集体玩梗“小丑投稿”;
  2. LeCun吐槽ICLR评审愈发僵化,丢掉初创时开放的评审初心;
  3. 网友对标:Word2vec早年同样ICLR拒稿,后续拿NeurIPS时间检验奖,顶会拒稿不代表学术价值失效。

四、Mamba后续逆袭路线

  1. Mamba初代原文:补充全套LRA、生成任务实验后转投COLM 2024(首届语言建模顶会),斩获杰出论文(全会议仅4篇杰出);
  2. 迭代版Mamba-2:统一SSM+注意力架构,直接被ICML2024正式录用
  3. 生态爆发:Vision Mamba、多模态Mamba、MoE-Mamba全系列落地,成为工业长文本、大模型主流备选架构。

五、播客/短视频文案精简版(可直接配音)

曾被ICLR拒稿的黑马Mamba,如今成大模型标配架构!四份审稿两满分、一份及格、一份不及格,8863的神仙打分惨遭顶会拒收,只因缺LRA实验、只用困惑度做评测。被质疑虚标长序列性能后,作者补全实验转投COLM拿下最佳论文,续作Mamba-2稳收ICML,完美复刻Word2vec当年被拒封神的名场面。

http://www.cnnetsun.cn/news/2747767.html

相关文章:

  • C++ MPI多进程协同筛素数:从基础分区到通信优化的完整实现包
  • 2017-2025年第一至十批绿色工厂名单匹配数据
  • 实战避坑:在Omni-Path或Slingshot网络中配置Dragonfly路由算法
  • BetterJoy:5步实现Switch手柄在电脑上的完美适配方案
  • 二抗选型别乱买!云克隆用教你读懂二抗核心作用、分类与选型底层逻辑
  • 告别玄学调试:用AURORA CHIP2CHIP的回环测试,给你的FPGA板级验证上个保险
  • 从废弃VCR屏到Arduino游戏机:硬件逆向与动态复用驱动实战
  • 太阳能4G远程机器人:能源管理与通信架构实战解析
  • VS2022 + OpenCV 4.9.0 环境配置避坑指南:从‘无法打开源文件’到成功运行
  • 基于STM8的精确脉冲发生器:从定时器原理到工程实践
  • 别再乱试了!聊聊ETH私钥碰撞的真实原理与安全边界(附多链工具避坑指南)
  • 基于树莓派与Flask的智能安防摄像头系统:从硬件连接到Web控制
  • 避开性能陷阱:CUDA异步编程与流(Stream)实战指南(附性能对比测试)
  • 鸿蒙 Flutter 项目里的平台能力层应该怎么命名和封装
  • 基于安全护栏的强化学习在云GPU弹性伸缩与定价中的应用
  • 2026年6月3日科技热点新闻
  • 从标定板到实战:OpenCV非对称圆点网格(CALIB_CB_ASYMMETRIC_GRID)完整使用指南
  • 别再只用2D视图了!Anylogic 3D窗口的5个实战配置技巧,让你的仿真演示效果翻倍
  • AI工具如何重塑KPI考核体系:从数据采集、行为建模到实时反馈的全链路闭环设计
  • Arduino机器人制作:从遥控到自主的混合控制实践
  • 终极抖音批量下载指南:5分钟学会免费下载无水印视频
  • 从OpenCV到MATLAB:图像质量评价(PSNR/SSIM)的跨平台实现与结果对比全解析
  • 企业级AI搜索落地必过三关:权限沙箱、向量时效性、审计可追溯性(含等保2.0合规检查清单)
  • HBS01-FPN基座模块
  • GKD第三方订阅完全指南:一站式解决Android自动化规则管理难题
  • 从微软奖学金看产学研前沿布局:分布式系统与AI如何塑造未来
  • Gemini 3.1 Pro国内合规使用指南:入口选择、能力匹配与工作流嵌入
  • Mysql 5.7开启binlog日志
  • Redis HyperLogLog用户统计功能实现
  • 基于Arduino Nano的智能小车PCB设计:从传感器集成到自主避障