AI大模型

MiniMax M3正式发布：编程能力跃升、百万上下文背后的技术野心与商业阵痛

2026年6月1日，MiniMax发布旗舰模型M3：SWE-Bench Pro得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，支持百万Token上下文与原生多模态；但套餐调价惹老用户投诉退款，技术突破与商业信任危机并存。

晨涧云

2026-06-01 — 阅读时间 11 分钟

2026年6月1日，MiniMax发布了新一代旗舰模型M3。发布当天，港股市场上，MiniMax股价盘中一度涨超7%，但收盘时却跌超15%，报收708港元/股。这个矛盾的走势，几乎是当天整个舆论氛围的真实写照：技术层面获得相当程度的认可，商业层面却因定价调整引发了一场集体退款风波。

这家同期正推进A股上市进程（已向上海证监局提交辅导备案）的公司，选在这个节点推出旗舰新品，既是技术展示，也是资本市场的一次信号释放。但现实是，信号发出去之后，用户那边先炸了锅。

M3的核心能力：三个维度的实质性升级

先说技术本身，这是M3这次发布最值得认真对待的部分。

编程与Agent能力是M3的核心卖点。在业界广泛使用的SWE-Bench Pro基准测试上，M3得分59.0%，超过了GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7的水准。Terminal Bench 2.1达到66.0%，MCP Atlas得分74.2%，Claw-Eval端到端评测中获得最高分。这些数字放在一起，已经够格称为"前沿水平"。

多模态能力是这次相对于上一代M2.7最显著的跨越。M2.7是纯文本模型，M3则是原生多模态，支持图片、视频输入，以及电脑桌面操作。在多模态测试集OmniDocBench上超过了Gemini 3.1 Pro，SVG-Bench上超过了Opus 4.7。原生多模态意味着视觉理解能力从一开始就融入训练，而不是后期打补丁，这在架构上是根本性的差异。

超长上下文方面，M3最高支持1M（百万）Token的上下文窗口，这对于Agent任务来说意义重大——一篇论文、一套代码库、一段实验日志，全部一次性塞进去，不用担心截断。支撑这个能力的，是MiniMax自研的MSA（MiniMax Sparse Attention）稀疏注意力架构，官方数据显示，在1M上下文下，每个token的计算量仅为上一代的1/20。

双思考模式是另一个实用设计。thinking模式面向复杂推理和Agent任务，non-thinking模式响应更快，适合日常对话和代码补全。两种模式共享定价，可以按需切换，没有额外门槛。

用一个具体例子感受一下M3的实测水准：有用户让M3生成植物大战僵尸的网页版，M3不仅完成了任务，还主动为每种植物和僵尸生成了对应的音效。这件事不在提示词的要求里，是模型自己加上去的。这种"超出指令的主动设计意识"，是很难在基准测试上体现出来的。

MSA架构：让百万上下文"用得起"

百万Token的上下文窗口听起来很美，但如果计算量随上下文长度平方级增长，实际用起来会让成本爆炸。MiniMax的解决方案是MSA（MiniMax Sparse Attention）。

这里有必要解释一下背景。MiniMax上一代M2曾尝试引入高效注意力机制，但因为"尚未生产就绪"而回退到全注意力方案。M3标志着MiniMax认为稀疏注意力的时机已经成熟。

MSA的核心设计可以用"两阶段拆分"来理解：

索引分支：用低成本的单头K加上块最大池化，快速筛选出最重要的Top-K个KV块，这一步计算量很小
稀疏分支：只对筛选出来的Top-K块执行标准的GQA（分组查询注意力）计算，跳过大量不相关的KV

实际效果如何？官方数据显示，1M上下文下，预填充速度提升9.7倍，解码速度提升15.6倍。按推算，每个查询实际触及的KV块仅占总量的6%–7%，也就是说有效感受野大约在6万到7万Token——不是真的全部"看完"百万Token，而是智能地只处理其中最关键的部分。

指标	1M上下文表现
预填充速度提升	9.7倍
解码速度提升	15.6倍
每Token计算量 vs 上一代	1/20
实际有效感受野	约6万–7万 Token（约6%–7%）

和DeepSeek的路线相比，MSA的工程哲学很有意思。DeepSeek的NSA设计包含选择、压缩、滑窗三条并行路径，追求理论上的更优覆盖；MSA只保留了选择分支，砍掉了压缩和滑窗，是一个"精简版NSA"。注意力机制选择GQA而非MLA，直接兼容vLLM、SGLang等主流推理框架，工程风险最低。

这背后的哲学是：不追求理论最优，追求能立即跑起来、能复用现有核函数、生产就绪。对于一家要商业化落地的公司来说，这个取舍其实很务实。

12小时自主复现论文：Agent能力的极限测试

MiniMax发布时展示了一个标志性案例，值得单独说。

他们让M3独立复现一篇获奖学术论文《Learning Dynamics of LLM Finetuning》。M3自主运行了将近12小时，跑通了论文的核心实验，观测到DPO训练中的squeezing效应，并验证了论文提出的Extend缓解方法。

这个任务的难点在于它同时考验了M3的三项核心能力：

多模态：需要读懂论文里的曲线图和数学公式
长上下文：论文、代码、实验日志需要一次性进入上下文窗口
编程能力：实验代码的编写、并发执行、结果分析

这三件事放在一起，单独哪个能力缺失，任务都跑不下来。从这个意义上说，它是对M3综合实力的一次系统性展示，而不是某个单项能力的刷分。

配合M3一同更新的MiniMax Code，官方称其可以将大型任务拆解为多个可并发、可动态调整的阶段，能自行产出代码、反思执行结果、修正方向，"可自主运行数天而无需人工干预"。这个定位已经不是"代码助手"，而是"代码同事"了。

价格调整引爆退款风波

技术发布之后，麻烦从商业侧来了。

M3的API定价按上下文长度分为两档：

上下文长度	输入价格（每百万token）	输出价格（每百万token）
512k以内	4.2元（前7天五折）	16.8元（前7天五折）
512k–1M	8.4元	33.6元

这个定价本身不算离谱，真正引发问题的是订阅套餐模式的根本性改变。

旧套餐按"次"计费，比如29元包499次、单次限5小时，不限单次上下文长度。对重度用户来说，这是极其划算的定价——无论你每次调用塞多少token进去，都算一次。新的Token Plan按实际消耗量收费，199元套餐约含18亿token，看起来数字很大，但如果你习惯了每次塞大量上下文，实际可用次数会大幅缩水。

更让用户愤怒的操作是：部分用户发现，已购买的套餐被自动降档了——比如原本199元的急速版，变成了119元的套餐。这不是用户主动选择的降级，是系统悄悄调整的。

官方群里随即爆发了集体投诉，用户要求退款，甚至有人扬言向监管部门投诉。MiniMax提供了退款链接，但全退还是部分退、具体流程如何，细节并不明朗。

从行业视角来看，这件事有其结构性背景。MiniMax目前仍处于亏损阶段：2025年营收约7904万美元，同比增长159%；但年内亏损达18.7亿美元，同比增长302%；经调整净亏损2.5亿美元。Agent化趋势加速了token消耗，旧订阅制本质上是补贴价，厂商迟早要向token计费靠拢。

但知道原因是一回事，接受方式是另一回事。套餐被悄悄降档这件事，涉及的不只是钱，是用户对平台的基本信任。这种操作方式，是这次风波最核心的问题所在。

实测：亮点与短板同样明显

把评测报告和用户反馈综合来看，M3的实际表现呈现出相当明显的"场景分化"。

表现出色的场景：

前端网页生成是M3目前最突出的能力。无需复杂的提示词工程，即可生成设计美观、动效细腻的高完成度项目。植物大战僵尸的案例之外，多个用户反映，日常的落地页、组件原型、数据可视化等任务，M3的输出质量明显优于此前体验过的其他模型。

已发现的问题：

循环思考Bug 是API模式下最常见的问题。模型会陷入无限循环思考，5到6分钟内不输出任何内容。目前的规避方法是在提示词末尾加上类似"请不要长时间思考、用中文思考、思考中不生成代码"的指令。推测原因是API缺少前置系统提示词，导致模型没有行为约束边界。

指令遵循缺陷在针对性测试中暴露明显。有测试者用自定义测试集发现：句子生成约束未达标、24点数学计算出现错误、密码锁推理题的答案虽然"蒙对"了，但推理过程有明显逻辑漏洞。这类问题在对话体验上不容易察觉，但对需要严格输出格式的应用场景来说，是实实在在的风险。

代码任务中断也有报告。某些编程测试题出现生成到一半突然停止、任务无故中止的情况。有测试者直接给出了"上线过于仓促"的判断。

客观地说，这些问题中有一部分可能在客户端版本上线后得到改善——API直接调用缺少客户端侧的系统提示词调优，本来就会放大边缘问题。但无论如何，这些都是当前版本真实存在的短板。

结语：关键一步，仍在路上

M3在技术层面做到了几件事：稀疏注意力架构从实验走向生产、多模态能力原生集成、编程基准测试进入前沿阵营。这些都是有数据支撑的进步，不是PR稿里的套话。

但评测数字和真实体验之间，永远有一段距离。稳定性、指令遵循、工程成熟度——这些东西不会在SWE-Bench的得分里体现，只会在用户日复一日的使用中暴露出来。M3目前的状态，大概是"在它擅长的场景里很出色，在它不擅长的场景里错误有点明显"。

定价调整这件事，则是整个AI行业都将面对的必答题。从流量补贴走向可持续商业化，路是对的，但走法很重要。MiniMax这次的阵痛，或许能给行业提供一个参照：用户可以接受涨价，但不容易接受被动降档。

按照官方的预告，M3的技术报告和开源权重预计在10天内发布。届时，更多技术细节会浮出水面，行业的评价也会更加完整。而在1M上下文和稀疏注意力逐渐成为行业基准线的2026年，M3的这一步，至少说明MiniMax已经站在了同一个擂台上。

MiniMax M3正式发布：编程能力跃升、百万上下文背后的技术野心与商业阵痛

晨涧云

M3的核心能力：三个维度的实质性升级

MSA架构：让百万上下文"用得起"

12小时自主复现论文：Agent能力的极限测试

价格调整引爆退款风波

实测：亮点与短板同样明显

结语：关键一步，仍在路上

阅读更多

Kimi K3全解析：2.8万亿参数旗舰上线，智能体编程新答卷

GPT-5.6发布：三档模型体系与Codex、ChatGPT大整合解读

Seedream 5.0 Pro发布：字节图像模型的设计级跃升与真实差距

晨涧云GPU算力资源盘点：2026年7月，哪些卡好租，哪些卡要等