当前位置：首页 > news >正文

MiniMax M3 把百万上下文、SOTA 编程、多模态集齐，模型不再“偏科“

news 2026/6/3 3:50:50

6月1日，MiniMax正式发布全新旗舰模型——MiniMax M3。

第一眼看到这条消息时，我以为又是一场熟悉的大模型参数竞赛。

但认真读完技术报告和官方博客后，我发现：

这次MiniMax想讲的故事，并不是模型变得更聪明了。

而是试图解决另一个更现实的问题：

如何让大模型真正成为能够连续工作数小时、处理百万级上下文、理解图像和视频、并自主完成复杂任务的Agent。

如果说过去两年大模型行业竞争的是：

谁的推理能力更强
谁的数学成绩更高
谁的Benchmark排名更靠前

那么M3正在试图把竞争维度拉向另一个方向：

长程任务执行能力（Long Horizon Agent）。

而这恰恰是下一代AI Agent最需要的基础设施

01. 这不是又一份"我们又跑了个 SOTA"

如果你过去两年被各种"刷新榜单""跑分屠榜"的新闻反复摩擦，看到这句话的第一反应大概率是——又来。但这次不太一样。

M3 一次性把三件过去被海外闭源模型"垄断"的能力摞到了同一块底盘上：

百万级（1M tokens）超长上下文
，且保证至少 512K 可用
国际顶尖水平的 Coding & Agent 能力
（SWE-Bench Pro 59.0%，超过 GPT-5.5、Gemini 3.1 Pro，逼近 Opus 4.7）
原生多模态 + Computer Use
，能看图、看视频，还能跨应用操作桌面

更关键的是：它是国内第一个把这三件套同时凑齐的模型，也是目前唯一开源的。

这意味着，过去"我们模型很强但少一块"的尴尬，在 M3 身上第一次被打通了。

02. 先看底牌：MSA 稀疏注意力，让 1M 上下文不再烧钱

要理解 M3 的工程意义，必须先看它的底牌——MSA（MiniMax Sparse Attention）自研稀疏注意力架构。

2.1 老问题：Transformer 的 O(n²) 复杂度

标准 Transformer 的自注意力是平方复杂度：上下文长度每翻 10 倍，计算量涨 100 倍。

这意味着，同样一张卡，能跑 8K 上下文，扩展到 128K 要 256 倍算力，扩展到 1M 还要再翻 64 倍——指数级失血。

过去一年，业界为了"让 1M 上下文真能用"，分出了几条路线：

路线	代表	思路
线性注意力	Mamba / RWKV	改序列建模方式，副作用是召回下降
KV 压缩	StreamingLLM / H2O	截断或淘汰老 token
稀疏注意力	NSA / MoBA / HySparse	只对关键 token 做精确注意力
状态空间	Jamba	混合架构

MiniMax 选的是稀疏注意力这条最稳的路。

2.2 MSA 的双分支设计

MSA 的核心结构是索引分支（Index Branch）+ 稀疏计算分支（Sparse Branch）：

1.索引分支快速扫描全上下文，用轻量打分筛出 top-k 关键 token
2.稀疏计算分支只对这部分关键 token 做完整 Q·K^T softmax 注意力
3.聚合输出后送回主干

这套打法把每 token 的注意力计算量从 O(n) 压到O(k log n)量级。

官方数据：

1M 上下文下，每 token 计算量仅为上代 M2 的 1/20
Prefilling（预填充）阶段：> 9× 加速
Decoding（解码）阶段：> 15× 加速

在 Hopper 架构上做 FP8 GEMM 优化时，硬件峰值利用率从7.6% → 71.3%（9.4× 加速），算子层比开源的 Flash-Sparse-Attention、flash-moba快 4 倍以上。

翻译成人话：M3 不是"在 1M 上跑得动"，而是"在 1M 上跑得便宜"。

2.3 稀疏注意力不是银弹

必须提一嘴——稀疏注意力不是万灵药。

学界和工程社区已经看到几个已知问题：

在"序列维度"压缩时可能丢失关键信息
现有方案大多为免训练设计，换模型架构的泛化能力未充分验证
缺乏统一的效率-精度权衡评估体系

所以接下来的问题是：MiniMax 在 M3 里到底有没有解决这些坑？

从基准成绩来看，至少在它跑过的评测集上，是解决的。

03. 看成绩：M3 在 Coding 和 Agent 维度到底有多能打？

这是 M3 最值得花篇幅讲的部分，因为它直接定义了"这个模型能拿来干什么"。

3.1 编程能力：与海外旗舰掰手腕

基准	M3 得分	关键对比
SWE-Bench Pro	59.0%	超 GPT-5.5、Gemini 3.1 Pro，逼近 Opus 4.7
Terminal Bench 2.1	66.0%	终端/CLI 任务
SWE-fficiency	34.8%	真实工程效率维度
KernelBench Hard	28.8%	写 CUDA 内核的硬骨头
MCP Atlas	74.2%	工具调用协议 MCP 综合能力
SVG-Bench	第一梯队	超过 Opus 4.7

注意KernelBench Hard——这是写高性能 CUDA kernel 的专项，OpenAI 和 Anthropic 的模型在这个榜单上长期焦灼。M3 把 28.8% 摆出来，配合之前提到的 FP8 GEMM 9.4× 加速，说明这个模型不只会写代码，还懂底层硬件。

3.2 Agent 能力：能跑长程任务

Agent 评测是 M3 这次最想强调的差异化。

基准	M3 得分	说明
Claw-Eval	最高分	端到端 Agent 框架评测
BrowseComp	83.5	自主浏览检索，超 Opus 4.7（79.3）
OmniDocBench	第一梯队	多模态文档理解，超 Gemini 3.1 Pro

Claw-Eval 和 BrowseComp 这两个榜单，考察的不是单轮问答，而是多轮工具调用、长程规划、跨页信息检索的综合能力。M3 在 BrowseComp 上以 83.5 干掉 Opus 4.7 的 79.3，直接说明它在"自主干活"这件事上，已经站在了 SOTA 阵营里。

3.3 复现论文：一个 12 小时的真实验

比榜单更让人印象深刻的，是 MiniMax 官方贴出来的两个端到端案例。

案例一：独立复现 ICLR 2025 论文

任务对象：Learning Dynamics of LLM Finetuning（ICLR 2025 杰出论文）。

执行方式：M3连续运行近 12 小时，全程无人工干预，自主产出18 次 commit、23 张实验图表，成功跑通核心实验。

这条 case 之所以重要，是因为它需要三件事同时在线：

多模态
读懂论文里的图表和公式
百万上下文
把论文、代码、实验日志一次性塞进窗口
编程 + Agent
驱动 12 小时的长线程执行

少任何一项都会断。

案例二：自主训练 Base 模型

任务：给 M34 个只完成预训练的 Base 模型，要求12 小时内自主完成数据合成、训练、评测、迭代全流程。

结果：M3 最终得分37.1，位列第三，仅次于 Opus 4.7（42.4）和 GPT-5.5（39.3）。

也就是说，M3 不是在某个独立维度上"会 Agent"，而是真的能自己完成一个 ML pipeline——这种能力在 2024 年还叫"AGI 早期信号"，在 2026 年 6 月，已经变成了一份可被独立验证的 benchmark。

04. 看架构：稀疏 MoE + 1M 上下文 = 性价比之选

M3 这次明确放出的架构参数是：

稀疏 MoE 架构
总参数 196B
（千亿级）
激活参数 11B
单请求最高 400 TPS
API 最高 1M tokens
（保证 512K 可用）

这组数字的解读关键在于"激活 11B"——意味着每个请求实际跑的参数量只有 110 亿。

在 1M 上下文的请求里，每次 forward 真正触发的算力，等价于一个 11B 级别的稠密模型。这就是为什么 M3 能把单 TPS 推到 400——是稀疏激活 + 稀疏注意力的双重红利在起作用。

横向对比一下，M2 系列已经是 2000 亿+ 总参数 / 激活约 100 亿的规模。M3 在激活量级几乎不增的情况下，总参数规模翻倍到接近 2000 亿量级、上下文拉到 1M、推理加速 9-15 倍——这是一个**典型"在不增加单请求成本的前提下，把全局容量做厚"**的工程取舍。

也是为什么 M3 在产品层能把价格压下来的核心原因。

05. 多模态：从 Step 0 开始的"原生"

这是 M3 经常被普通用户忽略、但其实最影响长期能力上限的部分。

MiniMax 官方明确说，M3从训练起点（Step 0）就采用文本、图片、视频多模态混合训练，预训练数据规模扩到百 T 量级。

这跟"先训好文本再外挂一个视觉塔"的"伪多模态"路线有本质区别：

文本和视觉语义空间是一起学的，不是后对齐的
长视频理解、长文档（PDF/图表）这种多模态 + 长上下文复合任务才能真正可用
Computer Use
（跨应用、跨文件、跨系统的桌面操作）才能基于统一的语义表征跑

M3 的多模态能力具体体现在三件事上：

1.图片/视频输入理解— 这是基线
2.桌面操作（Computer Use）— 跨应用自动化，OpenAI / Anthropic 的旗舰都把这块作为付费 tier 的核心卖点
3.OmniDocBench 上超 Gemini 3.1 Pro— 复杂文档理解能力

如果说百万上下文是"基础设施"，那原生多模态就是"上层应用的真实可行性"——没有这个，视频理解、长 PDF 解析、操作流录像分析这些场景全是空话。

06. 国内对标：M3 在国产模型里处于什么位置？

把这事放进国产模型的坐标系里看。

维度	M3	DeepSeek V4.1（未发）	其他国产旗舰
1M 上下文	✅ 已上线	✅ 已预告	多数支持 128K-256K
原生多模态	✅ Step 0 训练	部分支持	多为外挂
Computer Use	✅	暂未公开	少
Coding SOTA 阵营	✅ SWE-Bench Pro 59%	未公布	多在 40-55%
开源	✅ 10 天内开源	多数开源	参差
Claude Code 兼容 + MCP	✅	多支持	参差

M3 的差异化非常清楚：把"长上下文 + 多模态 + Agent"这三件事在同一个开源模型上做齐，并且在 Coding 维度上跑到跟海外闭源旗舰同档。

对国内 AI 生态来说，M3 不是一个新 SOTA，而是一个"补齐短板"——它把过去"国产模型强但少一块"的尴尬，第一次系统性地补上了。

07. 产品和价格：Token Plan 把门槛打下来了

M3 的发布同步落地的产品动作：

MiniMax Code
（Agent IDE 产品）已同步更新
Token Plan 订阅
：Plus49 元/月、Max119 元/月、Ultra469 元/月
API 即日起开放
，512K 上下文版本上线限时 5 折，持续 7 天
模型权重 + 技术报告 10 天内开源

加上开源，M3 的商业策略本质是"用价格 + 开源抢通用市场"——这跟 DeepSeek 当年的打法如出一辙，但 M3 在能力维度上显然更激进。

08. 一些冷静的提醒

写到最后，职业习惯提醒几句：

1.官方榜单 ≠ 你手上的体感。SWE-Bench Pro 59% 是任务级表现，不代表你日常用就不出错。幻觉、指令遵循、长链路稳定性这些"软指标"，仍然需要你自己压测。
2.1M 上下文的"有效长度"是个谜。1M 窗口的"可用"和"高频调用"是两码事。海绵针实验、NIAH 这些长上下文经典测试集，M3 的实际表现还需要第三方独立验证。
3.稀疏注意力的泛化性仍是行业问题。M3 在自家评测集上跑赢，不代表它在你私有领域（金融研报、法律合同、医疗文献）上不掉点。
4.开源 ≠ 完全开放。注意看 LICENSE——商用是否受限、是否需要署名、是否对模型二次分发有要求，10 天后开源时建议先看清楚。
5.Computer Use 是个高危能力。任何开放桌面操作能力的模型，都会带来 prompt injection、数据泄露、误操作的安全风险，生产环境用必须套一层权限网关。

09. 写在最后：大模型竞赛的"效率分水岭"

回头看 M3 的发布，最有信号意义的不只是某个 benchmark 跑分，而是 M3 把"百万上下文 + Coding SOTA + 原生多模态"这三件事在同一个开源模型上同时跑通了。

这件事本身就是一个分水岭。

在 2024 年，行业还在卷"谁的上下文更长"
在 2025 年上半年，行业卷"谁的多模态更原生"
在 2025 年下半年到 2026 年初，行业开始卷"谁的 Agent 真能干活"
到了 2026 年 6 月，第一个把这三件事同时做齐的国产开源模型出现了

它意味着大模型的竞争维度，正在从"参数规模"和"能力广度"，系统性地转向"每 token 算力 / 单任务完成度 / 真实可用性"。

更多transformer，VIT，swin tranformer 参考头条号：人工智能研究所 v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

查看全文

http://www.cnnetsun.cn/news/2720604.html

从“灵光一现”到“深思熟虑”：Self-Consistency如何让大模型更像人类专家做决策

别只做Demo了！给你的EasyAR图像识别APP加上手势缩放旋转，提升交互体验

【AI电商整合实战指南】：2024年最全7大落地场景+3套避坑清单，头部平台已验证

抖音无水印视频批量下载神器：告别手动保存的烦恼

手把手教你用ENVI搞定Landsat8影像的FLAASH大气校正（附完整参数设置与避坑点）

PHP日志系统从入门到精通

从Fluent面板到理论公式：一文讲透ANSYS Help文档的四种正确打开方式

别再只做九点标定了！Halcon+C#实战：手眼标定完整流程与旋转中心补偿避坑指南

【万字文档+源码】基于springBoot+vue摄影师分享交流社区系统-项目分享学习

手把手教你理解GW星座：从3GPP NTN标准到手机直连卫星的实战展望

SAP EWM两步拣配实战：从波次释放到发货完成的完整流程演示与库存变化追踪

企业级Windows Syslog服务器终极指南：Visual Syslog Server完整部署与优化方案

从一次跨国服务时间戳Bug说起：深入理解Linux的CST、UTC、GMT和RTC到底怎么玩

在AutoDL上租张4090，5小时跑通So-vits-svc4.1模型训练（含社区镜像选择与日志解读）

转行AI训练师，你竟然能找到这些高薪工作！（附岗位地图）

实验室萌新必看：手把手教你读懂pET-28a(+)质粒图谱，从元件到实操一次搞定

MATLAB实现的车-路-网协同充电负荷模拟工具：支持动态路径规划与区域级24小时负荷热力图生成

从无效社交到价值网络：工程师的个人品牌与系统性连接策略

【RT-DETR实战】111、TensorRT推理引擎构建与性能测试：从踩坑到起飞

HoloNet框架：深度神经网络在QCD相结构研究中的应用

UWB二维定位MATLAB实战包：含Chan/TDOA/WLS/泰勒/EKF/UKF六种算法及实测数据

量子线性求解器在流体动力学中的应用与实现

语音合成逼真度提升不是调参——而是重构声学先验：基于10万小时真实语料的发音动力学建模

Unity安卓端第三人称移动控制模板：左摇杆走位+右拖拽调视角

AI先替代了谁｜横店群演等不到通告了

独家披露：Sora 2艺术复现未公开API调用层协议与motion token embedding映射表（限时开放24小时下载）

零 Token 消耗！Agnes 多模态 Agent 全栈实战指南

如何高效使用冒险岛资源解析工具：5个实用技巧全面指南

PyTorch项目安装报错libcupti.so.12找不到？一个软链接搞定CUDA环境依赖

别再死记公式了！用Simulink仿真带你直观理解Buck电路的DCM与CCM模式切换