AI算力

苹果M5 Max深度解析：从"能用"到"好用"的AI算力跃迁

M5 Max通过引入Neural Accelerator实现矩阵运算性能最高3.5倍提升，将大模型推理首字响应时间（TTFT）缩短至M4 Max的三分之一，在多个模型测试中已正面超越上代M3 Ultra。M5 Max正从传统笔记本SoC向专业级AI计算卡演进，标志着苹果本地AI推理从"能用"迈向"好用"。

晨涧云

2026-03-17 — 阅读时间 10 分钟

新王登基：M5 Max正在脱离传统笔记本SoC的逻辑

先说一个真实的场景。

同样一份11页的英文论文，丢给本地部署的千问3 27B模型做总结。M4 Max首字等待39秒，M3 Ultra 21秒，而M5 Max——大约12秒。

这不是什么精心挑选的极端case。随便换个长文档任务，画面都差不多：M5 Max已经开始输出内容了，M4 Max还在"原地罚站"。

如果你只看跑分表格，可能会觉得M5 Max就是例行升级——CPU快了10%，GPU快了一些，内存带宽涨了。但真正上手跑大模型之后，你会发现事情没那么简单。这颗芯片在AI推理上的表现，已经开始脱离"笔记本SoC"的传统逻辑，隐约长出了苹果专业级AI计算卡的轮廓。

M5 Max到底是不是苹果迈向AI计算卡的一次关键尝试？我们用数据说话。

Dense模型实测：首字响应时间缩短三倍，M5 Max终于不用"罚站"了

测试方法

为了尽可能全面地评估M5 Max的大模型推理能力，这次测试覆盖了两类共四个模型：

Dense类：Llama 70B、千问3.5 27B
MOE类：千问3.1 22B、千问3 35B

测试环境涵盖八种配置，输入长度从几十个token一路拉到16k tokens，基本覆盖了日常使用中从简单问答到长文档处理的全部场景。

这里需要解释两个核心指标：

TTFT（Time To First Token）：首个token生成时间。你把一篇文档丢给模型，到它开始"说话"之间的等待时间。这个阶段是计算密集型的，非常吃算力。
Decode Speed：每秒输出token数。模型开始说话之后，吐字的速度。这个阶段是带宽密集型的，主要看内存带宽。

Llama 70B：差距最为悬殊

先看最吃资源的Llama 70B。

场景	M4 Max TTFT	M5 Max TTFT	M3 Ultra TTFT
16k tokens	159秒	51秒	—
8k tokens	76.58秒	24.69秒	—

16k场景下，M4 Max需要等将近3分钟才能看到第一个字，M5 Max只要51秒。性能提升整整3倍，而且已经超越了上代M3 Ultra。

8k场景同样夸张，从76秒压到25秒。这意味着什么？一篇普通的长文档分析任务，等待时间从"让人想去泡杯咖啡"变成了"刷两条朋友圈就好了"。

千问3.5 27B：接近3倍的稳定提升

场景	M4 Max TTFT	M5 Max TTFT
16k tokens	57.38秒	19.57秒

千问3.5 27B在16k场景下，TTFT从57秒降到不到20秒，同样接近3倍的提升。

这里有一个关键规律值得注意：当输入文本超过1000个token（大约对应800到1240字的中文文章）时，M5 Max就能带来非常显著的性能提升。 换句话说，只要你不是在跟模型闲聊两句，而是真的在用它干活——读文档、分析代码、处理长上下文——M5 Max的优势就会立刻体现出来。

Decode速度：提升有限，但够用

不过话说回来，Decode速度方面的提升就没那么夸张了。M5 Max和M4 Max在输出速度上表现接近，离M3 Ultra仍有一段距离。这也好理解——Decode阶段主要受内存带宽制约，M5 Max的带宽虽然有提升，但没有质变。

但这其实不是什么大问题。真正让人焦躁的从来不是模型每秒少说了三个token，而是你把文档喂进去之后，它思考半天不吭声。M5 Max第一次把这个问题真正往下按了一大截。

MOE模型实测：一台Max级别的机器，已经开始和上代Ultra正面交锋

Dense模型的结果已经足够亮眼，但MOE模型的表现才真正让人意识到M5 Max的定位正在发生变化。

千问3 35B：全面压过M3 Ultra

先看千问3 35B。普通问答场景下，M4 Max跑到108 tok/s，M5 Max是124 tok/s，提升有限，大概15%左右。

但把输入拉长到16k tokens，差距就出来了：

指标	M4 Max	M5 Max	M3 Ultra
TTFT（16k）	12.14秒	7.29秒	—
Decode Speed（16k）	95 tok/s	107 tok/s	—

TTFT快了40%，输出速度也从95提升到107 tok/s。

更关键的是——在千问3 35B这个模型上，M5 Max已经全面压过M3 Ultra，无论是TTFT还是Decode速度。一台Max级别的笔记本芯片，正面硬刚上代Ultra，而且赢了。

千问3.1 22B：与M3 Ultra不相上下

千问3.1 22B是个更大的MOE模型，更吃内存。这时候M5 Max的128GB统一内存优势就凸显出来了。

指标	M4 Max	M5 Max	M3 Ultra
TTFT（16k）	34秒	22秒	≈22秒
Decode Speed（16k）	46 tok/s	49 tok/s	—

16k场景下TTFT从34秒降到22秒，和M3 Ultra基本一致。Decode速度49 tok/s，在所有测试任务上都领先M3 Ultra。

一台Max级别的机器，在MOE模型上已经和上代Ultra打得有来有回，甚至在部分场景下胜出。这在以前是不可想象的。

文生图性能：M5 Max比M4 Max快61%，逼近M3 Ultra

大模型推理之外，文生图也是本地AI的重要应用场景。

测试条件：Flux Image Turbo 8bit量化模型，生成1024×1024分辨率图片。

芯片	耗时
M4 Max	45秒
M5 Max	28秒
M3 Ultra	24秒

M5 Max相比M4 Max快了大约61%，距离M3 Ultra只差4秒。

对于一颗Max级别的芯片来说，这个结果已经相当夸张了。要知道Ultra是两颗Max拼起来的，理论上应该有巨大的性能优势。但M5 Max硬是把差距压缩到了一个非常小的范围内。

技术内幕：Neural Accelerator如何让矩阵运算性能飙升3.5倍

前面的测试数据已经很清楚了——M5 Max在TTFT上的提升是碾压级的，但Decode速度提升有限。这种"偏科"式的进步背后，到底发生了什么？

答案藏在一个叫Neural Accelerator的新硬件单元里。

大模型推理的两个阶段

要理解Neural Accelerator的作用，先得搞清楚大模型推理的两个阶段：

Pre-fill阶段：模型读取你输入的全部内容，建立上下文，生成QKV向量，进行大规模注意力计算。这个过程涉及海量的矩阵乘法运算，是典型的计算密集型任务。Pre-fill的快慢，直接决定了TTFT——也就是你等第一个字等多久。

Decode阶段：模型开始逐个token生成输出，每生成一个token都需要不断读取KV Cache。这个过程是带宽密集型的，主要瓶颈在内存带宽。Decode的快慢，决定了输出的流畅度。

M5 Max的核心突破，精准地发生在Pre-fill侧。关键武器就是GPU中新加入的Neural Accelerator。

矩阵运算实测：数据不会说谎

以下是FP32精度下的矩阵乘法实测数据：

矩阵规模	M4 Max GPU	M5 Max GPU	M5 Max + Neural Accelerator	加速比	M3 Ultra
2048³	11.5 TFlops	14.5 TFlops	48.1 TFlops	3.35x	21.6 TFlops
2048×2048×8192	—	—	—	3.51x	—
4096×4096×16384	—	—	—	2.86x	—
8192规模	—	—	—	2.29x	—

几个关键数字：

2048³矩阵规模下，M5 Max的GPU本身比M4 Max快26%，这是正常的代际提升。但开启Neural Accelerator之后，直接飙到48.1 TFlops，加速比3.35倍。这个数字远远超过M3 Ultra的21.6 TFlops。
2048×2048×8192矩阵下，加速比最高达到3.51倍。
随着矩阵规模增大，加速比会逐渐收敛，但在8192规模下仍然保持2.29倍的优势。

还有一个很有意思的数据：基础款M5（不是Max）在2048规模下的加速比达到了3.47倍，矩阵运算性能已经追平M4 Max。也就是说，Neural Accelerator不是Max独享的，苹果在整条产品线上都做了这个升级。

核心结论

苹果在M5这一代，通过引入Neural Accelerator，彻底解决了大模型Pre-fill过慢的问题。这不是一个"全面提升10%"的常规升级，而是一次精准的、有战略意图的架构改进——瞄准AI推理中最影响用户体验的那个环节，一刀切下去。

效果就是：本地AI推理从"能用"走到了"好用"。

CPU全大核设计：效能核心"升级"为性能核心

除了AI相关的突破，M5 Max在传统CPU/GPU性能上也有一些有趣的变化。

Geekbench 6成绩

芯片	单核	多核
M4 Max	~3940	~26400
M5 Max	4334	29000
M3 Ultra	~3340	~29000

单核4334分，比M4 Max提升约10%，比M3 Ultra提升约30%。多核29000分，比M4 Max提升约10%，已经持平M3 Ultra。

全大核架构

M5 Max在CPU架构上做了一个很有意思的改动：把原本的效能核心（E-Cluster）改成了性能核心（M-Cluster）。本质上，这是一个全大核设计。

性能核心频率约4.23GHz，而大小核在每周期执行能力上的差异其实非常小，本质上是同一微架构，区别主要在频率和缓存配置。作为对比，M4 Max的效能核心最高只有3.8GHz。

全大核设计意味着什么？意味着无论系统把任务调度到哪个核心上，都能获得接近一致的性能表现。对于多线程的AI推理负载来说，这是一个实实在在的好处。

结语：不只是一颗更快的芯片，而是苹果AI战略的关键拼图

回过头来看M5 Max这颗芯片，它的升级路径非常清晰，也非常有目的性。

苹果没有选择"全面撒胡椒面"式的提升，而是把最大的火力集中在了一个点上——通过Neural Accelerator让矩阵运算性能实现质变，把TTFT性能提升了3倍。这不是跑分表上的数字游戏，而是体验层面的根本改善。从"把文档丢进去等两分半"到"等不到一分钟"，这中间的差距，用过本地大模型的人都懂。

更值得关注的是产品线定位的微妙变化。一台Max级别的机器，在多个模型和场景下已经能正面对抗上代Ultra。这在以前是不可能的事情。M5 Max正在脱离传统笔记本SoC的逻辑，展现出"专业级AI计算卡"的雏形。

对于本地AI推理用户来说，M5 Max的实际意义很明确：长文档、长代码场景下的等待焦虑被大幅缓解了。你终于可以把一整份合同、一整篇论文、一整段代码丢给本地模型，而不用在漫长的等待中怀疑人生。

最后留一个悬念：如果Max已经到了这个水平，M5 Ultra会是什么样的存在？两颗M5 Max拼在一起，Neural Accelerator的算力翻倍，256GB统一内存……光是想想就让人期待。