当前位置: 首页 > news >正文

MiniMax M3 把百万上下文、SOTA 编程、多模态集齐,模型不再“偏科“

6月1日,MiniMax正式发布全新旗舰模型——MiniMax M3。

第一眼看到这条消息时,我以为又是一场熟悉的大模型参数竞赛。

但认真读完技术报告和官方博客后,我发现:

这次MiniMax想讲的故事,并不是模型变得更聪明了。

而是试图解决另一个更现实的问题:

如何让大模型真正成为能够连续工作数小时、处理百万级上下文、理解图像和视频、并自主完成复杂任务的Agent。

如果说过去两年大模型行业竞争的是:

  • 谁的推理能力更强

  • 谁的数学成绩更高

  • 谁的Benchmark排名更靠前

那么M3正在试图把竞争维度拉向另一个方向:

长程任务执行能力(Long Horizon Agent)。

而这恰恰是下一代AI Agent最需要的基础设施

01. 这不是又一份"我们又跑了个 SOTA"

如果你过去两年被各种"刷新榜单""跑分屠榜"的新闻反复摩擦,看到这句话的第一反应大概率是——又来。但这次不太一样。

M3 一次性把三件过去被海外闭源模型"垄断"的能力摞到了同一块底盘上:

  • 百万级(1M tokens)超长上下文

    ,且保证至少 512K 可用

  • 国际顶尖水平的 Coding & Agent 能力

    (SWE-Bench Pro 59.0%,超过 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7)

  • 原生多模态 + Computer Use

    ,能看图、看视频,还能跨应用操作桌面

更关键的是:它是国内第一个把这三件套同时凑齐的模型,也是目前唯一开源的

这意味着,过去"我们模型很强但少一块"的尴尬,在 M3 身上第一次被打通了。

02. 先看底牌:MSA 稀疏注意力,让 1M 上下文不再烧钱

要理解 M3 的工程意义,必须先看它的底牌——MSA(MiniMax Sparse Attention)自研稀疏注意力架构。

2.1 老问题:Transformer 的 O(n²) 复杂度

标准 Transformer 的自注意力是平方复杂度:上下文长度每翻 10 倍,计算量涨 100 倍。

这意味着,同样一张卡,能跑 8K 上下文,扩展到 128K 要 256 倍算力,扩展到 1M 还要再翻 64 倍——指数级失血

过去一年,业界为了"让 1M 上下文真能用",分出了几条路线:

路线

代表

思路

线性注意力

Mamba / RWKV

改序列建模方式,副作用是召回下降

KV 压缩

StreamingLLM / H2O

截断或淘汰老 token

稀疏注意力

NSA / MoBA / HySparse

只对关键 token 做精确注意力

状态空间

Jamba

混合架构

MiniMax 选的是稀疏注意力这条最稳的路。

2.2 MSA 的双分支设计

MSA 的核心结构是索引分支(Index Branch)+ 稀疏计算分支(Sparse Branch)

  1. 1.索引分支快速扫描全上下文,用轻量打分筛出 top-k 关键 token

  2. 2.稀疏计算分支只对这部分关键 token 做完整 Q·K^T softmax 注意力

  3. 3.聚合输出后送回主干

这套打法把每 token 的注意力计算量从 O(n) 压到O(k log n)量级。

官方数据:

  • 1M 上下文下,每 token 计算量仅为上代 M2 的 1/20
  • Prefilling(预填充)阶段:> 9× 加速
  • Decoding(解码)阶段:> 15× 加速

在 Hopper 架构上做 FP8 GEMM 优化时,硬件峰值利用率从7.6% → 71.3%(9.4× 加速),算子层比开源的 Flash-Sparse-Attention、flash-moba快 4 倍以上

翻译成人话:M3 不是"在 1M 上跑得动",而是"在 1M 上跑得便宜"。

2.3 稀疏注意力不是银弹

必须提一嘴——稀疏注意力不是万灵药。

学界和工程社区已经看到几个已知问题

  • 在"序列维度"压缩时可能丢失关键信息

  • 现有方案大多为免训练设计,换模型架构的泛化能力未充分验证

  • 缺乏统一的效率-精度权衡评估体系

所以接下来的问题是:MiniMax 在 M3 里到底有没有解决这些坑?

从基准成绩来看,至少在它跑过的评测集上,是解决的。

03. 看成绩:M3 在 Coding 和 Agent 维度到底有多能打?

这是 M3 最值得花篇幅讲的部分,因为它直接定义了"这个模型能拿来干什么"。

3.1 编程能力:与海外旗舰掰手腕

基准

M3 得分

关键对比

SWE-Bench Pro

59.0%

超 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7

Terminal Bench 2.1

66.0%

终端/CLI 任务

SWE-fficiency

34.8%

真实工程效率维度

KernelBench Hard

28.8%

写 CUDA 内核的硬骨头

MCP Atlas

74.2%

工具调用协议 MCP 综合能力

SVG-Bench

第一梯队

超过 Opus 4.7

注意KernelBench Hard——这是写高性能 CUDA kernel 的专项,OpenAI 和 Anthropic 的模型在这个榜单上长期焦灼。M3 把 28.8% 摆出来,配合之前提到的 FP8 GEMM 9.4× 加速,说明这个模型不只会写代码,还懂底层硬件

3.2 Agent 能力:能跑长程任务

Agent 评测是 M3 这次最想强调的差异化。

基准

M3 得分

说明

Claw-Eval

最高分

端到端 Agent 框架评测

BrowseComp

83.5

自主浏览检索,超 Opus 4.7(79.3)

OmniDocBench

第一梯队

多模态文档理解,超 Gemini 3.1 Pro

Claw-Eval 和 BrowseComp 这两个榜单,考察的不是单轮问答,而是多轮工具调用、长程规划、跨页信息检索的综合能力。M3 在 BrowseComp 上以 83.5 干掉 Opus 4.7 的 79.3,直接说明它在"自主干活"这件事上,已经站在了 SOTA 阵营里

3.3 复现论文:一个 12 小时的真实验

比榜单更让人印象深刻的,是 MiniMax 官方贴出来的两个端到端案例。

案例一:独立复现 ICLR 2025 论文

任务对象:Learning Dynamics of LLM Finetuning(ICLR 2025 杰出论文)。

执行方式:M3连续运行近 12 小时,全程无人工干预,自主产出18 次 commit、23 张实验图表,成功跑通核心实验。

这条 case 之所以重要,是因为它需要三件事同时在线:

  • 多模态

    读懂论文里的图表和公式

  • 百万上下文

    把论文、代码、实验日志一次性塞进窗口

  • 编程 + Agent

    驱动 12 小时的长线程执行

少任何一项都会断。

案例二:自主训练 Base 模型

任务:给 M34 个只完成预训练的 Base 模型,要求12 小时内自主完成数据合成、训练、评测、迭代全流程。

结果:M3 最终得分37.1位列第三,仅次于 Opus 4.7(42.4)和 GPT-5.5(39.3)。

也就是说,M3 不是在某个独立维度上"会 Agent",而是真的能自己完成一个 ML pipeline——这种能力在 2024 年还叫"AGI 早期信号",在 2026 年 6 月,已经变成了一份可被独立验证的 benchmark。

04. 看架构:稀疏 MoE + 1M 上下文 = 性价比之选

M3 这次明确放出的架构参数是:

  • 稀疏 MoE 架构
  • 总参数 196B

    (千亿级)

  • 激活参数 11B
  • 单请求最高 400 TPS
  • API 最高 1M tokens

    (保证 512K 可用)

这组数字的解读关键在于"激活 11B"——意味着每个请求实际跑的参数量只有 110 亿。

在 1M 上下文的请求里,每次 forward 真正触发的算力,等价于一个 11B 级别的稠密模型。这就是为什么 M3 能把单 TPS 推到 400——是稀疏激活 + 稀疏注意力的双重红利在起作用。

横向对比一下,M2 系列已经是 2000 亿+ 总参数 / 激活约 100 亿的规模。M3 在激活量级几乎不增的情况下,总参数规模翻倍到接近 2000 亿量级、上下文拉到 1M、推理加速 9-15 倍——这是一个**典型"在不增加单请求成本的前提下,把全局容量做厚"**的工程取舍。

也是为什么 M3 在产品层能把价格压下来的核心原因。

05. 多模态:从 Step 0 开始的"原生"

这是 M3 经常被普通用户忽略、但其实最影响长期能力上限的部分。

MiniMax 官方明确说,M3从训练起点(Step 0)就采用文本、图片、视频多模态混合训练,预训练数据规模扩到百 T 量级

这跟"先训好文本再外挂一个视觉塔"的"伪多模态"路线有本质区别:

  • 文本和视觉语义空间是一起学的,不是后对齐的

  • 长视频理解、长文档(PDF/图表)这种多模态 + 长上下文复合任务才能真正可用

  • Computer Use

    (跨应用、跨文件、跨系统的桌面操作)才能基于统一的语义表征跑

M3 的多模态能力具体体现在三件事上:

  1. 1.图片/视频输入理解— 这是基线

  2. 2.桌面操作(Computer Use)— 跨应用自动化,OpenAI / Anthropic 的旗舰都把这块作为付费 tier 的核心卖点

  3. 3.OmniDocBench 上超 Gemini 3.1 Pro— 复杂文档理解能力

如果说百万上下文是"基础设施",那原生多模态就是"上层应用的真实可行性"——没有这个,视频理解、长 PDF 解析、操作流录像分析这些场景全是空话。

06. 国内对标:M3 在国产模型里处于什么位置?

把这事放进国产模型的坐标系里看。

维度

M3

DeepSeek V4.1(未发)

其他国产旗舰

1M 上下文

✅ 已上线

✅ 已预告

多数支持 128K-256K

原生多模态

✅ Step 0 训练

部分支持

多为外挂

Computer Use

暂未公开

Coding SOTA 阵营

✅ SWE-Bench Pro 59%

未公布

多在 40-55%

开源

✅ 10 天内开源

多数开源

参差

Claude Code 兼容 + MCP

多支持

参差

M3 的差异化非常清楚:把"长上下文 + 多模态 + Agent"这三件事在同一个开源模型上做齐,并且在 Coding 维度上跑到跟海外闭源旗舰同档

对国内 AI 生态来说,M3 不是一个新 SOTA,而是一个"补齐短板"——它把过去"国产模型强但少一块"的尴尬,第一次系统性地补上了。

07. 产品和价格:Token Plan 把门槛打下来了

M3 的发布同步落地的产品动作:

  • MiniMax Code

    (Agent IDE 产品)已同步更新

  • Token Plan 订阅

    :Plus49 元/月、Max119 元/月、Ultra469 元/月

  • API 即日起开放

    ,512K 上下文版本上线限时 5 折,持续 7 天

  • 模型权重 + 技术报告 10 天内开源

加上开源,M3 的商业策略本质是"用价格 + 开源抢通用市场"——这跟 DeepSeek 当年的打法如出一辙,但 M3 在能力维度上显然更激进。

08. 一些冷静的提醒

写到最后,职业习惯提醒几句:

  1. 1.官方榜单 ≠ 你手上的体感。SWE-Bench Pro 59% 是任务级表现,不代表你日常用就不出错。幻觉、指令遵循、长链路稳定性这些"软指标",仍然需要你自己压测。

  2. 2.1M 上下文的"有效长度"是个谜。1M 窗口的"可用"和"高频调用"是两码事。海绵针实验、NIAH 这些长上下文经典测试集,M3 的实际表现还需要第三方独立验证。

  3. 3.稀疏注意力的泛化性仍是行业问题。M3 在自家评测集上跑赢,不代表它在你私有领域(金融研报、法律合同、医疗文献)上不掉点。

  4. 4.开源 ≠ 完全开放。注意看 LICENSE——商用是否受限、是否需要署名、是否对模型二次分发有要求,10 天后开源时建议先看清楚。

  5. 5.Computer Use 是个高危能力。任何开放桌面操作能力的模型,都会带来 prompt injection、数据泄露、误操作的安全风险,生产环境用必须套一层权限网关

09. 写在最后:大模型竞赛的"效率分水岭"

回头看 M3 的发布,最有信号意义的不只是某个 benchmark 跑分,而是 M3 把"百万上下文 + Coding SOTA + 原生多模态"这三件事在同一个开源模型上同时跑通了

这件事本身就是一个分水岭

  • 在 2024 年,行业还在卷"谁的上下文更长"

  • 在 2025 年上半年,行业卷"谁的多模态更原生"

  • 在 2025 年下半年到 2026 年初,行业开始卷"谁的 Agent 真能干活"

  • 到了 2026 年 6 月,第一个把这三件事同时做齐的国产开源模型出现了

它意味着大模型的竞争维度,正在从"参数规模"和"能力广度",系统性地转向"每 token 算力 / 单任务完成度 / 真实可用性"。

更多transformer,VIT,swin tranformer 参考头条号:人工智能研究所 v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

http://www.cnnetsun.cn/news/2720604.html

相关文章:

  • 从“灵光一现”到“深思熟虑”:Self-Consistency如何让大模型更像人类专家做决策
  • 别只做Demo了!给你的EasyAR图像识别APP加上手势缩放旋转,提升交互体验
  • 【AI电商整合实战指南】:2024年最全7大落地场景+3套避坑清单,头部平台已验证
  • 抖音无水印视频批量下载神器:告别手动保存的烦恼
  • 手把手教你用ENVI搞定Landsat8影像的FLAASH大气校正(附完整参数设置与避坑点)
  • PHP日志系统从入门到精通
  • 从Fluent面板到理论公式:一文讲透ANSYS Help文档的四种正确打开方式
  • 别再只做九点标定了!Halcon+C#实战:手眼标定完整流程与旋转中心补偿避坑指南
  • 【万字文档+源码】基于springBoot+vue摄影师分享交流社区系统-项目分享学习
  • 手把手教你理解GW星座:从3GPP NTN标准到手机直连卫星的实战展望
  • SAP EWM两步拣配实战:从波次释放到发货完成的完整流程演示与库存变化追踪
  • 企业级Windows Syslog服务器终极指南:Visual Syslog Server完整部署与优化方案
  • 从一次跨国服务时间戳Bug说起:深入理解Linux的CST、UTC、GMT和RTC到底怎么玩
  • 在AutoDL上租张4090,5小时跑通So-vits-svc4.1模型训练(含社区镜像选择与日志解读)
  • 转行AI训练师,你竟然能找到这些高薪工作!(附岗位地图)
  • 实验室萌新必看:手把手教你读懂pET-28a(+)质粒图谱,从元件到实操一次搞定
  • MATLAB实现的车-路-网协同充电负荷模拟工具:支持动态路径规划与区域级24小时负荷热力图生成
  • 从无效社交到价值网络:工程师的个人品牌与系统性连接策略
  • 【RT-DETR实战】111、TensorRT推理引擎构建与性能测试:从踩坑到起飞
  • HoloNet框架:深度神经网络在QCD相结构研究中的应用
  • UWB二维定位MATLAB实战包:含Chan/TDOA/WLS/泰勒/EKF/UKF六种算法及实测数据
  • 量子线性求解器在流体动力学中的应用与实现
  • 语音合成逼真度提升不是调参——而是重构声学先验:基于10万小时真实语料的发音动力学建模
  • Unity安卓端第三人称移动控制模板:左摇杆走位+右拖拽调视角
  • AI先替代了谁|横店群演等不到通告了
  • 独家披露:Sora 2艺术复现未公开API调用层协议与motion token embedding映射表(限时开放24小时下载)
  • 零 Token 消耗!Agnes 多模态 Agent 全栈实战指南
  • 如何高效使用冒险岛资源解析工具:5个实用技巧全面指南
  • PyTorch项目安装报错libcupti.so.12找不到?一个软链接搞定CUDA环境依赖
  • 别再死记公式了!用Simulink仿真带你直观理解Buck电路的DCM与CCM模式切换