苹果M5 Max深度解析:从"能用"到"好用"的AI算力跃迁

M5 Max通过引入Neural Accelerator实现矩阵运算性能最高3.5倍提升,将大模型推理首字响应时间(TTFT)缩短至M4 Max的三分之一,在多个模型测试中已正面超越上代M3 Ultra。M5 Max正从传统笔记本SoC向专业级AI计算卡演进,标志着苹果本地AI推理从"能用"迈向"好用"。

苹果M5-Max

新王登基:M5 Max正在脱离传统笔记本SoC的逻辑

先说一个真实的场景。

同样一份11页的英文论文,丢给本地部署的千问3 27B模型做总结。M4 Max首字等待39秒,M3 Ultra 21秒,而M5 Max——大约12秒。

这不是什么精心挑选的极端case。随便换个长文档任务,画面都差不多:M5 Max已经开始输出内容了,M4 Max还在"原地罚站"。

如果你只看跑分表格,可能会觉得M5 Max就是例行升级——CPU快了10%,GPU快了一些,内存带宽涨了。但真正上手跑大模型之后,你会发现事情没那么简单。这颗芯片在AI推理上的表现,已经开始脱离"笔记本SoC"的传统逻辑,隐约长出了苹果专业级AI计算卡的轮廓。

M5 Max到底是不是苹果迈向AI计算卡的一次关键尝试?我们用数据说话。


Dense模型实测:首字响应时间缩短三倍,M5 Max终于不用"罚站"了

测试方法

为了尽可能全面地评估M5 Max的大模型推理能力,这次测试覆盖了两类共四个模型:

  • Dense类:Llama 70B、千问3.5 27B
  • MOE类:千问3.1 22B、千问3 35B

测试环境涵盖八种配置,输入长度从几十个token一路拉到16k tokens,基本覆盖了日常使用中从简单问答到长文档处理的全部场景。

这里需要解释两个核心指标:

  • TTFT(Time To First Token):首个token生成时间。你把一篇文档丢给模型,到它开始"说话"之间的等待时间。这个阶段是计算密集型的,非常吃算力。
  • Decode Speed:每秒输出token数。模型开始说话之后,吐字的速度。这个阶段是带宽密集型的,主要看内存带宽。

Llama 70B:差距最为悬殊

先看最吃资源的Llama 70B。

场景 M4 Max TTFT M5 Max TTFT M3 Ultra TTFT
16k tokens 159秒 51秒
8k tokens 76.58秒 24.69秒

16k场景下,M4 Max需要等将近3分钟才能看到第一个字,M5 Max只要51秒。性能提升整整3倍,而且已经超越了上代M3 Ultra。

8k场景同样夸张,从76秒压到25秒。这意味着什么?一篇普通的长文档分析任务,等待时间从"让人想去泡杯咖啡"变成了"刷两条朋友圈就好了"。

千问3.5 27B:接近3倍的稳定提升

场景 M4 Max TTFT M5 Max TTFT
16k tokens 57.38秒 19.57秒

千问3.5 27B在16k场景下,TTFT从57秒降到不到20秒,同样接近3倍的提升。

这里有一个关键规律值得注意:当输入文本超过1000个token(大约对应800到1240字的中文文章)时,M5 Max就能带来非常显著的性能提升。 换句话说,只要你不是在跟模型闲聊两句,而是真的在用它干活——读文档、分析代码、处理长上下文——M5 Max的优势就会立刻体现出来。

Decode速度:提升有限,但够用

不过话说回来,Decode速度方面的提升就没那么夸张了。M5 Max和M4 Max在输出速度上表现接近,离M3 Ultra仍有一段距离。这也好理解——Decode阶段主要受内存带宽制约,M5 Max的带宽虽然有提升,但没有质变。

但这其实不是什么大问题。真正让人焦躁的从来不是模型每秒少说了三个token,而是你把文档喂进去之后,它思考半天不吭声。M5 Max第一次把这个问题真正往下按了一大截。


MOE模型实测:一台Max级别的机器,已经开始和上代Ultra正面交锋

Dense模型的结果已经足够亮眼,但MOE模型的表现才真正让人意识到M5 Max的定位正在发生变化。

千问3 35B:全面压过M3 Ultra

先看千问3 35B。普通问答场景下,M4 Max跑到108 tok/s,M5 Max是124 tok/s,提升有限,大概15%左右。

但把输入拉长到16k tokens,差距就出来了:

指标 M4 Max M5 Max M3 Ultra
TTFT(16k) 12.14秒 7.29秒
Decode Speed(16k) 95 tok/s 107 tok/s

TTFT快了40%,输出速度也从95提升到107 tok/s。

更关键的是——在千问3 35B这个模型上,M5 Max已经全面压过M3 Ultra,无论是TTFT还是Decode速度。一台Max级别的笔记本芯片,正面硬刚上代Ultra,而且赢了。

千问3.1 22B:与M3 Ultra不相上下

千问3.1 22B是个更大的MOE模型,更吃内存。这时候M5 Max的128GB统一内存优势就凸显出来了。

指标 M4 Max M5 Max M3 Ultra
TTFT(16k) 34秒 22秒 ≈22秒
Decode Speed(16k) 46 tok/s 49 tok/s

16k场景下TTFT从34秒降到22秒,和M3 Ultra基本一致。Decode速度49 tok/s,在所有测试任务上都领先M3 Ultra。

一台Max级别的机器,在MOE模型上已经和上代Ultra打得有来有回,甚至在部分场景下胜出。这在以前是不可想象的。


文生图性能:M5 Max比M4 Max快61%,逼近M3 Ultra

大模型推理之外,文生图也是本地AI的重要应用场景。

测试条件:Flux Image Turbo 8bit量化模型,生成1024×1024分辨率图片。

芯片 耗时
M4 Max 45秒
M5 Max 28秒
M3 Ultra 24秒

M5 Max相比M4 Max快了大约61%,距离M3 Ultra只差4秒。

对于一颗Max级别的芯片来说,这个结果已经相当夸张了。要知道Ultra是两颗Max拼起来的,理论上应该有巨大的性能优势。但M5 Max硬是把差距压缩到了一个非常小的范围内。


技术内幕:Neural Accelerator如何让矩阵运算性能飙升3.5倍

前面的测试数据已经很清楚了——M5 Max在TTFT上的提升是碾压级的,但Decode速度提升有限。这种"偏科"式的进步背后,到底发生了什么?

答案藏在一个叫Neural Accelerator的新硬件单元里。

大模型推理的两个阶段

要理解Neural Accelerator的作用,先得搞清楚大模型推理的两个阶段:

Pre-fill阶段:模型读取你输入的全部内容,建立上下文,生成QKV向量,进行大规模注意力计算。这个过程涉及海量的矩阵乘法运算,是典型的计算密集型任务。Pre-fill的快慢,直接决定了TTFT——也就是你等第一个字等多久。

Decode阶段:模型开始逐个token生成输出,每生成一个token都需要不断读取KV Cache。这个过程是带宽密集型的,主要瓶颈在内存带宽。Decode的快慢,决定了输出的流畅度。

M5 Max的核心突破,精准地发生在Pre-fill侧。关键武器就是GPU中新加入的Neural Accelerator。

矩阵运算实测:数据不会说谎

以下是FP32精度下的矩阵乘法实测数据:

矩阵规模 M4 Max GPU M5 Max GPU M5 Max + Neural Accelerator 加速比 M3 Ultra
2048³ 11.5 TFlops 14.5 TFlops 48.1 TFlops 3.35x 21.6 TFlops
2048×2048×8192 3.51x
4096×4096×16384 2.86x
8192规模 2.29x

几个关键数字:

  • 2048³矩阵规模下,M5 Max的GPU本身比M4 Max快26%,这是正常的代际提升。但开启Neural Accelerator之后,直接飙到48.1 TFlops,加速比3.35倍。这个数字远远超过M3 Ultra的21.6 TFlops。
  • 2048×2048×8192矩阵下,加速比最高达到3.51倍。
  • 随着矩阵规模增大,加速比会逐渐收敛,但在8192规模下仍然保持2.29倍的优势。

还有一个很有意思的数据:基础款M5(不是Max)在2048规模下的加速比达到了3.47倍,矩阵运算性能已经追平M4 Max。也就是说,Neural Accelerator不是Max独享的,苹果在整条产品线上都做了这个升级。

核心结论

苹果在M5这一代,通过引入Neural Accelerator,彻底解决了大模型Pre-fill过慢的问题。这不是一个"全面提升10%"的常规升级,而是一次精准的、有战略意图的架构改进——瞄准AI推理中最影响用户体验的那个环节,一刀切下去。

效果就是:本地AI推理从"能用"走到了"好用"。


CPU全大核设计:效能核心"升级"为性能核心

除了AI相关的突破,M5 Max在传统CPU/GPU性能上也有一些有趣的变化。

Geekbench 6成绩

芯片 单核 多核
M4 Max ~3940 ~26400
M5 Max 4334 29000
M3 Ultra ~3340 ~29000

单核4334分,比M4 Max提升约10%,比M3 Ultra提升约30%。多核29000分,比M4 Max提升约10%,已经持平M3 Ultra。

全大核架构

M5 Max在CPU架构上做了一个很有意思的改动:把原本的效能核心(E-Cluster)改成了性能核心(M-Cluster)。本质上,这是一个全大核设计。

性能核心频率约4.23GHz,而大小核在每周期执行能力上的差异其实非常小,本质上是同一微架构,区别主要在频率和缓存配置。作为对比,M4 Max的效能核心最高只有3.8GHz。

全大核设计意味着什么?意味着无论系统把任务调度到哪个核心上,都能获得接近一致的性能表现。对于多线程的AI推理负载来说,这是一个实实在在的好处。


结语:不只是一颗更快的芯片,而是苹果AI战略的关键拼图

回过头来看M5 Max这颗芯片,它的升级路径非常清晰,也非常有目的性。

苹果没有选择"全面撒胡椒面"式的提升,而是把最大的火力集中在了一个点上——通过Neural Accelerator让矩阵运算性能实现质变,把TTFT性能提升了3倍。这不是跑分表上的数字游戏,而是体验层面的根本改善。从"把文档丢进去等两分半"到"等不到一分钟",这中间的差距,用过本地大模型的人都懂。

更值得关注的是产品线定位的微妙变化。一台Max级别的机器,在多个模型和场景下已经能正面对抗上代Ultra。这在以前是不可能的事情。M5 Max正在脱离传统笔记本SoC的逻辑,展现出"专业级AI计算卡"的雏形。

对于本地AI推理用户来说,M5 Max的实际意义很明确:长文档、长代码场景下的等待焦虑被大幅缓解了。你终于可以把一整份合同、一整篇论文、一整段代码丢给本地模型,而不用在漫长的等待中怀疑人生。

最后留一个悬念:如果Max已经到了这个水平,M5 Ultra会是什么样的存在?两颗M5 Max拼在一起,Neural Accelerator的算力翻倍,256GB统一内存……光是想想就让人期待。

阅读更多