MiniMax M3 把百万上下文、SOTA 编程、多模态集齐,模型不再“偏科“
6月1日,MiniMax正式发布全新旗舰模型——MiniMax M3。
第一眼看到这条消息时,我以为又是一场熟悉的大模型参数竞赛。
但认真读完技术报告和官方博客后,我发现:
这次MiniMax想讲的故事,并不是模型变得更聪明了。
而是试图解决另一个更现实的问题:
如何让大模型真正成为能够连续工作数小时、处理百万级上下文、理解图像和视频、并自主完成复杂任务的Agent。
如果说过去两年大模型行业竞争的是:
谁的推理能力更强
谁的数学成绩更高
谁的Benchmark排名更靠前
那么M3正在试图把竞争维度拉向另一个方向:
长程任务执行能力(Long Horizon Agent)。
而这恰恰是下一代AI Agent最需要的基础设施
01. 这不是又一份"我们又跑了个 SOTA"
如果你过去两年被各种"刷新榜单""跑分屠榜"的新闻反复摩擦,看到这句话的第一反应大概率是——又来。但这次不太一样。
M3 一次性把三件过去被海外闭源模型"垄断"的能力摞到了同一块底盘上:
- 百万级(1M tokens)超长上下文
,且保证至少 512K 可用
- 国际顶尖水平的 Coding & Agent 能力
(SWE-Bench Pro 59.0%,超过 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7)
- 原生多模态 + Computer Use
,能看图、看视频,还能跨应用操作桌面
更关键的是:它是国内第一个把这三件套同时凑齐的模型,也是目前唯一开源的。
这意味着,过去"我们模型很强但少一块"的尴尬,在 M3 身上第一次被打通了。
02. 先看底牌:MSA 稀疏注意力,让 1M 上下文不再烧钱
要理解 M3 的工程意义,必须先看它的底牌——MSA(MiniMax Sparse Attention)自研稀疏注意力架构。
2.1 老问题:Transformer 的 O(n²) 复杂度
标准 Transformer 的自注意力是平方复杂度:上下文长度每翻 10 倍,计算量涨 100 倍。
这意味着,同样一张卡,能跑 8K 上下文,扩展到 128K 要 256 倍算力,扩展到 1M 还要再翻 64 倍——指数级失血。
过去一年,业界为了"让 1M 上下文真能用",分出了几条路线:
路线 | 代表 | 思路 |
线性注意力 | Mamba / RWKV | 改序列建模方式,副作用是召回下降 |
KV 压缩 | StreamingLLM / H2O | 截断或淘汰老 token |
稀疏注意力 | NSA / MoBA / HySparse | 只对关键 token 做精确注意力 |
状态空间 | Jamba | 混合架构 |
MiniMax 选的是稀疏注意力这条最稳的路。
2.2 MSA 的双分支设计
MSA 的核心结构是索引分支(Index Branch)+ 稀疏计算分支(Sparse Branch):
1.索引分支快速扫描全上下文,用轻量打分筛出 top-k 关键 token
2.稀疏计算分支只对这部分关键 token 做完整 Q·K^T softmax 注意力
3.聚合输出后送回主干
这套打法把每 token 的注意力计算量从 O(n) 压到O(k log n)量级。
官方数据:
- 1M 上下文下,每 token 计算量仅为上代 M2 的 1/20
- Prefilling(预填充)阶段:> 9× 加速
- Decoding(解码)阶段:> 15× 加速
在 Hopper 架构上做 FP8 GEMM 优化时,硬件峰值利用率从7.6% → 71.3%(9.4× 加速),算子层比开源的 Flash-Sparse-Attention、flash-moba快 4 倍以上。
翻译成人话:M3 不是"在 1M 上跑得动",而是"在 1M 上跑得便宜"。
2.3 稀疏注意力不是银弹
必须提一嘴——稀疏注意力不是万灵药。
学界和工程社区已经看到几个已知问题:
在"序列维度"压缩时可能丢失关键信息
现有方案大多为免训练设计,换模型架构的泛化能力未充分验证
缺乏统一的效率-精度权衡评估体系
所以接下来的问题是:MiniMax 在 M3 里到底有没有解决这些坑?
从基准成绩来看,至少在它跑过的评测集上,是解决的。
03. 看成绩:M3 在 Coding 和 Agent 维度到底有多能打?
这是 M3 最值得花篇幅讲的部分,因为它直接定义了"这个模型能拿来干什么"。
3.1 编程能力:与海外旗舰掰手腕
基准 | M3 得分 | 关键对比 |
SWE-Bench Pro | 59.0% | 超 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7 |
Terminal Bench 2.1 | 66.0% | 终端/CLI 任务 |
SWE-fficiency | 34.8% | 真实工程效率维度 |
KernelBench Hard | 28.8% | 写 CUDA 内核的硬骨头 |
MCP Atlas | 74.2% | 工具调用协议 MCP 综合能力 |
SVG-Bench | 第一梯队 | 超过 Opus 4.7 |
注意KernelBench Hard——这是写高性能 CUDA kernel 的专项,OpenAI 和 Anthropic 的模型在这个榜单上长期焦灼。M3 把 28.8% 摆出来,配合之前提到的 FP8 GEMM 9.4× 加速,说明这个模型不只会写代码,还懂底层硬件。
3.2 Agent 能力:能跑长程任务
Agent 评测是 M3 这次最想强调的差异化。
基准 | M3 得分 | 说明 |
Claw-Eval | 最高分 | 端到端 Agent 框架评测 |
BrowseComp | 83.5 | 自主浏览检索,超 Opus 4.7(79.3) |
OmniDocBench | 第一梯队 | 多模态文档理解,超 Gemini 3.1 Pro |
Claw-Eval 和 BrowseComp 这两个榜单,考察的不是单轮问答,而是多轮工具调用、长程规划、跨页信息检索的综合能力。M3 在 BrowseComp 上以 83.5 干掉 Opus 4.7 的 79.3,直接说明它在"自主干活"这件事上,已经站在了 SOTA 阵营里。
3.3 复现论文:一个 12 小时的真实验
比榜单更让人印象深刻的,是 MiniMax 官方贴出来的两个端到端案例。
案例一:独立复现 ICLR 2025 论文
任务对象:Learning Dynamics of LLM Finetuning(ICLR 2025 杰出论文)。
执行方式:M3连续运行近 12 小时,全程无人工干预,自主产出18 次 commit、23 张实验图表,成功跑通核心实验。
这条 case 之所以重要,是因为它需要三件事同时在线:
- 多模态
读懂论文里的图表和公式
- 百万上下文
把论文、代码、实验日志一次性塞进窗口
- 编程 + Agent
驱动 12 小时的长线程执行
少任何一项都会断。
案例二:自主训练 Base 模型
任务:给 M34 个只完成预训练的 Base 模型,要求12 小时内自主完成数据合成、训练、评测、迭代全流程。
结果:M3 最终得分37.1,位列第三,仅次于 Opus 4.7(42.4)和 GPT-5.5(39.3)。
也就是说,M3 不是在某个独立维度上"会 Agent",而是真的能自己完成一个 ML pipeline——这种能力在 2024 年还叫"AGI 早期信号",在 2026 年 6 月,已经变成了一份可被独立验证的 benchmark。
04. 看架构:稀疏 MoE + 1M 上下文 = 性价比之选
M3 这次明确放出的架构参数是:
- 稀疏 MoE 架构
- 总参数 196B
(千亿级)
- 激活参数 11B
- 单请求最高 400 TPS
- API 最高 1M tokens
(保证 512K 可用)
这组数字的解读关键在于"激活 11B"——意味着每个请求实际跑的参数量只有 110 亿。
在 1M 上下文的请求里,每次 forward 真正触发的算力,等价于一个 11B 级别的稠密模型。这就是为什么 M3 能把单 TPS 推到 400——是稀疏激活 + 稀疏注意力的双重红利在起作用。
横向对比一下,M2 系列已经是 2000 亿+ 总参数 / 激活约 100 亿的规模。M3 在激活量级几乎不增的情况下,总参数规模翻倍到接近 2000 亿量级、上下文拉到 1M、推理加速 9-15 倍——这是一个**典型"在不增加单请求成本的前提下,把全局容量做厚"**的工程取舍。
也是为什么 M3 在产品层能把价格压下来的核心原因。
05. 多模态:从 Step 0 开始的"原生"
这是 M3 经常被普通用户忽略、但其实最影响长期能力上限的部分。
MiniMax 官方明确说,M3从训练起点(Step 0)就采用文本、图片、视频多模态混合训练,预训练数据规模扩到百 T 量级。
这跟"先训好文本再外挂一个视觉塔"的"伪多模态"路线有本质区别:
文本和视觉语义空间是一起学的,不是后对齐的
长视频理解、长文档(PDF/图表)这种多模态 + 长上下文复合任务才能真正可用
- Computer Use
(跨应用、跨文件、跨系统的桌面操作)才能基于统一的语义表征跑
M3 的多模态能力具体体现在三件事上:
1.图片/视频输入理解— 这是基线
2.桌面操作(Computer Use)— 跨应用自动化,OpenAI / Anthropic 的旗舰都把这块作为付费 tier 的核心卖点
3.OmniDocBench 上超 Gemini 3.1 Pro— 复杂文档理解能力
如果说百万上下文是"基础设施",那原生多模态就是"上层应用的真实可行性"——没有这个,视频理解、长 PDF 解析、操作流录像分析这些场景全是空话。
06. 国内对标:M3 在国产模型里处于什么位置?
把这事放进国产模型的坐标系里看。
维度 | M3 | DeepSeek V4.1(未发) | 其他国产旗舰 |
1M 上下文 | ✅ 已上线 | ✅ 已预告 | 多数支持 128K-256K |
原生多模态 | ✅ Step 0 训练 | 部分支持 | 多为外挂 |
Computer Use | ✅ | 暂未公开 | 少 |
Coding SOTA 阵营 | ✅ SWE-Bench Pro 59% | 未公布 | 多在 40-55% |
开源 | ✅ 10 天内开源 | 多数开源 | 参差 |
Claude Code 兼容 + MCP | ✅ | 多支持 | 参差 |
M3 的差异化非常清楚:把"长上下文 + 多模态 + Agent"这三件事在同一个开源模型上做齐,并且在 Coding 维度上跑到跟海外闭源旗舰同档。
对国内 AI 生态来说,M3 不是一个新 SOTA,而是一个"补齐短板"——它把过去"国产模型强但少一块"的尴尬,第一次系统性地补上了。
07. 产品和价格:Token Plan 把门槛打下来了
M3 的发布同步落地的产品动作:
- MiniMax Code
(Agent IDE 产品)已同步更新
- Token Plan 订阅
:Plus49 元/月、Max119 元/月、Ultra469 元/月
- API 即日起开放
,512K 上下文版本上线限时 5 折,持续 7 天
- 模型权重 + 技术报告 10 天内开源
加上开源,M3 的商业策略本质是"用价格 + 开源抢通用市场"——这跟 DeepSeek 当年的打法如出一辙,但 M3 在能力维度上显然更激进。
08. 一些冷静的提醒
写到最后,职业习惯提醒几句:
1.官方榜单 ≠ 你手上的体感。SWE-Bench Pro 59% 是任务级表现,不代表你日常用就不出错。幻觉、指令遵循、长链路稳定性这些"软指标",仍然需要你自己压测。
2.1M 上下文的"有效长度"是个谜。1M 窗口的"可用"和"高频调用"是两码事。海绵针实验、NIAH 这些长上下文经典测试集,M3 的实际表现还需要第三方独立验证。
3.稀疏注意力的泛化性仍是行业问题。M3 在自家评测集上跑赢,不代表它在你私有领域(金融研报、法律合同、医疗文献)上不掉点。
4.开源 ≠ 完全开放。注意看 LICENSE——商用是否受限、是否需要署名、是否对模型二次分发有要求,10 天后开源时建议先看清楚。
5.Computer Use 是个高危能力。任何开放桌面操作能力的模型,都会带来 prompt injection、数据泄露、误操作的安全风险,生产环境用必须套一层权限网关。
09. 写在最后:大模型竞赛的"效率分水岭"
回头看 M3 的发布,最有信号意义的不只是某个 benchmark 跑分,而是 M3 把"百万上下文 + Coding SOTA + 原生多模态"这三件事在同一个开源模型上同时跑通了。
这件事本身就是一个分水岭。
在 2024 年,行业还在卷"谁的上下文更长"
在 2025 年上半年,行业卷"谁的多模态更原生"
在 2025 年下半年到 2026 年初,行业开始卷"谁的 Agent 真能干活"
- 到了 2026 年 6 月,第一个把这三件事同时做齐的国产开源模型出现了
它意味着大模型的竞争维度,正在从"参数规模"和"能力广度",系统性地转向"每 token 算力 / 单任务完成度 / 真实可用性"。
更多transformer,VIT,swin tranformer 参考头条号:人工智能研究所 v号:人工智能研究Suo, 启示AI科技动画详解transformer 在线视频教程
