MiniMax M3正式发布:编程能力跃升、百万上下文背后的技术野心与商业阵痛
2026年6月1日,MiniMax发布旗舰模型M3:SWE-Bench Pro得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,支持百万Token上下文与原生多模态;但套餐调价惹老用户投诉退款,技术突破与商业信任危机并存。
2026年6月1日,MiniMax发布了新一代旗舰模型M3。发布当天,港股市场上,MiniMax股价盘中一度涨超7%,但收盘时却跌超15%,报收708港元/股。这个矛盾的走势,几乎是当天整个舆论氛围的真实写照:技术层面获得相当程度的认可,商业层面却因定价调整引发了一场集体退款风波。
这家同期正推进A股上市进程(已向上海证监局提交辅导备案)的公司,选在这个节点推出旗舰新品,既是技术展示,也是资本市场的一次信号释放。但现实是,信号发出去之后,用户那边先炸了锅。
M3的核心能力:三个维度的实质性升级
先说技术本身,这是M3这次发布最值得认真对待的部分。
编程与Agent能力是M3的核心卖点。在业界广泛使用的SWE-Bench Pro基准测试上,M3得分59.0%,超过了GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7的水准。Terminal Bench 2.1达到66.0%,MCP Atlas得分74.2%,Claw-Eval端到端评测中获得最高分。这些数字放在一起,已经够格称为"前沿水平"。
多模态能力是这次相对于上一代M2.7最显著的跨越。M2.7是纯文本模型,M3则是原生多模态,支持图片、视频输入,以及电脑桌面操作。在多模态测试集OmniDocBench上超过了Gemini 3.1 Pro,SVG-Bench上超过了Opus 4.7。原生多模态意味着视觉理解能力从一开始就融入训练,而不是后期打补丁,这在架构上是根本性的差异。
超长上下文方面,M3最高支持1M(百万)Token的上下文窗口,这对于Agent任务来说意义重大——一篇论文、一套代码库、一段实验日志,全部一次性塞进去,不用担心截断。支撑这个能力的,是MiniMax自研的MSA(MiniMax Sparse Attention)稀疏注意力架构,官方数据显示,在1M上下文下,每个token的计算量仅为上一代的1/20。
双思考模式是另一个实用设计。thinking模式面向复杂推理和Agent任务,non-thinking模式响应更快,适合日常对话和代码补全。两种模式共享定价,可以按需切换,没有额外门槛。
用一个具体例子感受一下M3的实测水准:有用户让M3生成植物大战僵尸的网页版,M3不仅完成了任务,还主动为每种植物和僵尸生成了对应的音效。这件事不在提示词的要求里,是模型自己加上去的。这种"超出指令的主动设计意识",是很难在基准测试上体现出来的。
MSA架构:让百万上下文"用得起"
百万Token的上下文窗口听起来很美,但如果计算量随上下文长度平方级增长,实际用起来会让成本爆炸。MiniMax的解决方案是MSA(MiniMax Sparse Attention)。
这里有必要解释一下背景。MiniMax上一代M2曾尝试引入高效注意力机制,但因为"尚未生产就绪"而回退到全注意力方案。M3标志着MiniMax认为稀疏注意力的时机已经成熟。
MSA的核心设计可以用"两阶段拆分"来理解:
- 索引分支:用低成本的单头K加上块最大池化,快速筛选出最重要的Top-K个KV块,这一步计算量很小
- 稀疏分支:只对筛选出来的Top-K块执行标准的GQA(分组查询注意力)计算,跳过大量不相关的KV
实际效果如何?官方数据显示,1M上下文下,预填充速度提升9.7倍,解码速度提升15.6倍。按推算,每个查询实际触及的KV块仅占总量的6%–7%,也就是说有效感受野大约在6万到7万Token——不是真的全部"看完"百万Token,而是智能地只处理其中最关键的部分。
| 指标 | 1M上下文表现 |
|---|---|
| 预填充速度提升 | 9.7倍 |
| 解码速度提升 | 15.6倍 |
| 每Token计算量 vs 上一代 | 1/20 |
| 实际有效感受野 | 约6万–7万 Token(约6%–7%) |
和DeepSeek的路线相比,MSA的工程哲学很有意思。DeepSeek的NSA设计包含选择、压缩、滑窗三条并行路径,追求理论上的更优覆盖;MSA只保留了选择分支,砍掉了压缩和滑窗,是一个"精简版NSA"。注意力机制选择GQA而非MLA,直接兼容vLLM、SGLang等主流推理框架,工程风险最低。
这背后的哲学是:不追求理论最优,追求能立即跑起来、能复用现有核函数、生产就绪。对于一家要商业化落地的公司来说,这个取舍其实很务实。
12小时自主复现论文:Agent能力的极限测试
MiniMax发布时展示了一个标志性案例,值得单独说。
他们让M3独立复现一篇获奖学术论文《Learning Dynamics of LLM Finetuning》。M3自主运行了将近12小时,跑通了论文的核心实验,观测到DPO训练中的squeezing效应,并验证了论文提出的Extend缓解方法。
这个任务的难点在于它同时考验了M3的三项核心能力:
- 多模态:需要读懂论文里的曲线图和数学公式
- 长上下文:论文、代码、实验日志需要一次性进入上下文窗口
- 编程能力:实验代码的编写、并发执行、结果分析
这三件事放在一起,单独哪个能力缺失,任务都跑不下来。从这个意义上说,它是对M3综合实力的一次系统性展示,而不是某个单项能力的刷分。
配合M3一同更新的MiniMax Code,官方称其可以将大型任务拆解为多个可并发、可动态调整的阶段,能自行产出代码、反思执行结果、修正方向,"可自主运行数天而无需人工干预"。这个定位已经不是"代码助手",而是"代码同事"了。
价格调整引爆退款风波
技术发布之后,麻烦从商业侧来了。
M3的API定价按上下文长度分为两档:
| 上下文长度 | 输入价格(每百万token) | 输出价格(每百万token) |
|---|---|---|
| 512k以内 | 4.2元(前7天五折) | 16.8元(前7天五折) |
| 512k–1M | 8.4元 | 33.6元 |
这个定价本身不算离谱,真正引发问题的是订阅套餐模式的根本性改变。
旧套餐按"次"计费,比如29元包499次、单次限5小时,不限单次上下文长度。对重度用户来说,这是极其划算的定价——无论你每次调用塞多少token进去,都算一次。新的Token Plan按实际消耗量收费,199元套餐约含18亿token,看起来数字很大,但如果你习惯了每次塞大量上下文,实际可用次数会大幅缩水。
更让用户愤怒的操作是:部分用户发现,已购买的套餐被自动降档了——比如原本199元的急速版,变成了119元的套餐。这不是用户主动选择的降级,是系统悄悄调整的。
官方群里随即爆发了集体投诉,用户要求退款,甚至有人扬言向监管部门投诉。MiniMax提供了退款链接,但全退还是部分退、具体流程如何,细节并不明朗。
从行业视角来看,这件事有其结构性背景。MiniMax目前仍处于亏损阶段:2025年营收约7904万美元,同比增长159%;但年内亏损达18.7亿美元,同比增长302%;经调整净亏损2.5亿美元。Agent化趋势加速了token消耗,旧订阅制本质上是补贴价,厂商迟早要向token计费靠拢。
但知道原因是一回事,接受方式是另一回事。套餐被悄悄降档这件事,涉及的不只是钱,是用户对平台的基本信任。这种操作方式,是这次风波最核心的问题所在。
实测:亮点与短板同样明显
把评测报告和用户反馈综合来看,M3的实际表现呈现出相当明显的"场景分化"。
表现出色的场景:
前端网页生成是M3目前最突出的能力。无需复杂的提示词工程,即可生成设计美观、动效细腻的高完成度项目。植物大战僵尸的案例之外,多个用户反映,日常的落地页、组件原型、数据可视化等任务,M3的输出质量明显优于此前体验过的其他模型。
已发现的问题:
循环思考Bug 是API模式下最常见的问题。模型会陷入无限循环思考,5到6分钟内不输出任何内容。目前的规避方法是在提示词末尾加上类似"请不要长时间思考、用中文思考、思考中不生成代码"的指令。推测原因是API缺少前置系统提示词,导致模型没有行为约束边界。
指令遵循缺陷在针对性测试中暴露明显。有测试者用自定义测试集发现:句子生成约束未达标、24点数学计算出现错误、密码锁推理题的答案虽然"蒙对"了,但推理过程有明显逻辑漏洞。这类问题在对话体验上不容易察觉,但对需要严格输出格式的应用场景来说,是实实在在的风险。
代码任务中断也有报告。某些编程测试题出现生成到一半突然停止、任务无故中止的情况。有测试者直接给出了"上线过于仓促"的判断。
客观地说,这些问题中有一部分可能在客户端版本上线后得到改善——API直接调用缺少客户端侧的系统提示词调优,本来就会放大边缘问题。但无论如何,这些都是当前版本真实存在的短板。
结语:关键一步,仍在路上
M3在技术层面做到了几件事:稀疏注意力架构从实验走向生产、多模态能力原生集成、编程基准测试进入前沿阵营。这些都是有数据支撑的进步,不是PR稿里的套话。
但评测数字和真实体验之间,永远有一段距离。稳定性、指令遵循、工程成熟度——这些东西不会在SWE-Bench的得分里体现,只会在用户日复一日的使用中暴露出来。M3目前的状态,大概是"在它擅长的场景里很出色,在它不擅长的场景里错误有点明显"。
定价调整这件事,则是整个AI行业都将面对的必答题。从流量补贴走向可持续商业化,路是对的,但走法很重要。MiniMax这次的阵痛,或许能给行业提供一个参照:用户可以接受涨价,但不容易接受被动降档。
按照官方的预告,M3的技术报告和开源权重预计在10天内发布。届时,更多技术细节会浮出水面,行业的评价也会更加完整。而在1M上下文和稀疏注意力逐渐成为行业基准线的2026年,M3的这一步,至少说明MiniMax已经站在了同一个擂台上。