苹果M5 Max深度解析:从"能用"到"好用"的AI算力跃迁
M5 Max通过引入Neural Accelerator实现矩阵运算性能最高3.5倍提升,将大模型推理首字响应时间(TTFT)缩短至M4 Max的三分之一,在多个模型测试中已正面超越上代M3 Ultra。M5 Max正从传统笔记本SoC向专业级AI计算卡演进,标志着苹果本地AI推理从"能用"迈向"好用"。
新王登基:M5 Max正在脱离传统笔记本SoC的逻辑
先说一个真实的场景。
同样一份11页的英文论文,丢给本地部署的千问3 27B模型做总结。M4 Max首字等待39秒,M3 Ultra 21秒,而M5 Max——大约12秒。
这不是什么精心挑选的极端case。随便换个长文档任务,画面都差不多:M5 Max已经开始输出内容了,M4 Max还在"原地罚站"。
如果你只看跑分表格,可能会觉得M5 Max就是例行升级——CPU快了10%,GPU快了一些,内存带宽涨了。但真正上手跑大模型之后,你会发现事情没那么简单。这颗芯片在AI推理上的表现,已经开始脱离"笔记本SoC"的传统逻辑,隐约长出了苹果专业级AI计算卡的轮廓。
M5 Max到底是不是苹果迈向AI计算卡的一次关键尝试?我们用数据说话。
Dense模型实测:首字响应时间缩短三倍,M5 Max终于不用"罚站"了
测试方法
为了尽可能全面地评估M5 Max的大模型推理能力,这次测试覆盖了两类共四个模型:
- Dense类:Llama 70B、千问3.5 27B
- MOE类:千问3.1 22B、千问3 35B
测试环境涵盖八种配置,输入长度从几十个token一路拉到16k tokens,基本覆盖了日常使用中从简单问答到长文档处理的全部场景。
这里需要解释两个核心指标:
- TTFT(Time To First Token):首个token生成时间。你把一篇文档丢给模型,到它开始"说话"之间的等待时间。这个阶段是计算密集型的,非常吃算力。
- Decode Speed:每秒输出token数。模型开始说话之后,吐字的速度。这个阶段是带宽密集型的,主要看内存带宽。
Llama 70B:差距最为悬殊
先看最吃资源的Llama 70B。
| 场景 | M4 Max TTFT | M5 Max TTFT | M3 Ultra TTFT |
|---|---|---|---|
| 16k tokens | 159秒 | 51秒 | — |
| 8k tokens | 76.58秒 | 24.69秒 | — |
16k场景下,M4 Max需要等将近3分钟才能看到第一个字,M5 Max只要51秒。性能提升整整3倍,而且已经超越了上代M3 Ultra。
8k场景同样夸张,从76秒压到25秒。这意味着什么?一篇普通的长文档分析任务,等待时间从"让人想去泡杯咖啡"变成了"刷两条朋友圈就好了"。
千问3.5 27B:接近3倍的稳定提升
| 场景 | M4 Max TTFT | M5 Max TTFT |
|---|---|---|
| 16k tokens | 57.38秒 | 19.57秒 |
千问3.5 27B在16k场景下,TTFT从57秒降到不到20秒,同样接近3倍的提升。
这里有一个关键规律值得注意:当输入文本超过1000个token(大约对应800到1240字的中文文章)时,M5 Max就能带来非常显著的性能提升。 换句话说,只要你不是在跟模型闲聊两句,而是真的在用它干活——读文档、分析代码、处理长上下文——M5 Max的优势就会立刻体现出来。
Decode速度:提升有限,但够用
不过话说回来,Decode速度方面的提升就没那么夸张了。M5 Max和M4 Max在输出速度上表现接近,离M3 Ultra仍有一段距离。这也好理解——Decode阶段主要受内存带宽制约,M5 Max的带宽虽然有提升,但没有质变。
但这其实不是什么大问题。真正让人焦躁的从来不是模型每秒少说了三个token,而是你把文档喂进去之后,它思考半天不吭声。M5 Max第一次把这个问题真正往下按了一大截。
MOE模型实测:一台Max级别的机器,已经开始和上代Ultra正面交锋
Dense模型的结果已经足够亮眼,但MOE模型的表现才真正让人意识到M5 Max的定位正在发生变化。
千问3 35B:全面压过M3 Ultra
先看千问3 35B。普通问答场景下,M4 Max跑到108 tok/s,M5 Max是124 tok/s,提升有限,大概15%左右。
但把输入拉长到16k tokens,差距就出来了:
| 指标 | M4 Max | M5 Max | M3 Ultra |
|---|---|---|---|
| TTFT(16k) | 12.14秒 | 7.29秒 | — |
| Decode Speed(16k) | 95 tok/s | 107 tok/s | — |
TTFT快了40%,输出速度也从95提升到107 tok/s。
更关键的是——在千问3 35B这个模型上,M5 Max已经全面压过M3 Ultra,无论是TTFT还是Decode速度。一台Max级别的笔记本芯片,正面硬刚上代Ultra,而且赢了。
千问3.1 22B:与M3 Ultra不相上下
千问3.1 22B是个更大的MOE模型,更吃内存。这时候M5 Max的128GB统一内存优势就凸显出来了。
| 指标 | M4 Max | M5 Max | M3 Ultra |
|---|---|---|---|
| TTFT(16k) | 34秒 | 22秒 | ≈22秒 |
| Decode Speed(16k) | 46 tok/s | 49 tok/s | — |
16k场景下TTFT从34秒降到22秒,和M3 Ultra基本一致。Decode速度49 tok/s,在所有测试任务上都领先M3 Ultra。
一台Max级别的机器,在MOE模型上已经和上代Ultra打得有来有回,甚至在部分场景下胜出。这在以前是不可想象的。
文生图性能:M5 Max比M4 Max快61%,逼近M3 Ultra
大模型推理之外,文生图也是本地AI的重要应用场景。
测试条件:Flux Image Turbo 8bit量化模型,生成1024×1024分辨率图片。
| 芯片 | 耗时 |
|---|---|
| M4 Max | 45秒 |
| M5 Max | 28秒 |
| M3 Ultra | 24秒 |
M5 Max相比M4 Max快了大约61%,距离M3 Ultra只差4秒。
对于一颗Max级别的芯片来说,这个结果已经相当夸张了。要知道Ultra是两颗Max拼起来的,理论上应该有巨大的性能优势。但M5 Max硬是把差距压缩到了一个非常小的范围内。
技术内幕:Neural Accelerator如何让矩阵运算性能飙升3.5倍
前面的测试数据已经很清楚了——M5 Max在TTFT上的提升是碾压级的,但Decode速度提升有限。这种"偏科"式的进步背后,到底发生了什么?
答案藏在一个叫Neural Accelerator的新硬件单元里。
大模型推理的两个阶段
要理解Neural Accelerator的作用,先得搞清楚大模型推理的两个阶段:
Pre-fill阶段:模型读取你输入的全部内容,建立上下文,生成QKV向量,进行大规模注意力计算。这个过程涉及海量的矩阵乘法运算,是典型的计算密集型任务。Pre-fill的快慢,直接决定了TTFT——也就是你等第一个字等多久。
Decode阶段:模型开始逐个token生成输出,每生成一个token都需要不断读取KV Cache。这个过程是带宽密集型的,主要瓶颈在内存带宽。Decode的快慢,决定了输出的流畅度。
M5 Max的核心突破,精准地发生在Pre-fill侧。关键武器就是GPU中新加入的Neural Accelerator。
矩阵运算实测:数据不会说谎
以下是FP32精度下的矩阵乘法实测数据:
| 矩阵规模 | M4 Max GPU | M5 Max GPU | M5 Max + Neural Accelerator | 加速比 | M3 Ultra |
|---|---|---|---|---|---|
| 2048³ | 11.5 TFlops | 14.5 TFlops | 48.1 TFlops | 3.35x | 21.6 TFlops |
| 2048×2048×8192 | — | — | — | 3.51x | — |
| 4096×4096×16384 | — | — | — | 2.86x | — |
| 8192规模 | — | — | — | 2.29x | — |
几个关键数字:
- 2048³矩阵规模下,M5 Max的GPU本身比M4 Max快26%,这是正常的代际提升。但开启Neural Accelerator之后,直接飙到48.1 TFlops,加速比3.35倍。这个数字远远超过M3 Ultra的21.6 TFlops。
- 2048×2048×8192矩阵下,加速比最高达到3.51倍。
- 随着矩阵规模增大,加速比会逐渐收敛,但在8192规模下仍然保持2.29倍的优势。
还有一个很有意思的数据:基础款M5(不是Max)在2048规模下的加速比达到了3.47倍,矩阵运算性能已经追平M4 Max。也就是说,Neural Accelerator不是Max独享的,苹果在整条产品线上都做了这个升级。
核心结论
苹果在M5这一代,通过引入Neural Accelerator,彻底解决了大模型Pre-fill过慢的问题。这不是一个"全面提升10%"的常规升级,而是一次精准的、有战略意图的架构改进——瞄准AI推理中最影响用户体验的那个环节,一刀切下去。
效果就是:本地AI推理从"能用"走到了"好用"。
CPU全大核设计:效能核心"升级"为性能核心
除了AI相关的突破,M5 Max在传统CPU/GPU性能上也有一些有趣的变化。
Geekbench 6成绩
| 芯片 | 单核 | 多核 |
|---|---|---|
| M4 Max | ~3940 | ~26400 |
| M5 Max | 4334 | 29000 |
| M3 Ultra | ~3340 | ~29000 |
单核4334分,比M4 Max提升约10%,比M3 Ultra提升约30%。多核29000分,比M4 Max提升约10%,已经持平M3 Ultra。
全大核架构
M5 Max在CPU架构上做了一个很有意思的改动:把原本的效能核心(E-Cluster)改成了性能核心(M-Cluster)。本质上,这是一个全大核设计。
性能核心频率约4.23GHz,而大小核在每周期执行能力上的差异其实非常小,本质上是同一微架构,区别主要在频率和缓存配置。作为对比,M4 Max的效能核心最高只有3.8GHz。
全大核设计意味着什么?意味着无论系统把任务调度到哪个核心上,都能获得接近一致的性能表现。对于多线程的AI推理负载来说,这是一个实实在在的好处。
结语:不只是一颗更快的芯片,而是苹果AI战略的关键拼图
回过头来看M5 Max这颗芯片,它的升级路径非常清晰,也非常有目的性。
苹果没有选择"全面撒胡椒面"式的提升,而是把最大的火力集中在了一个点上——通过Neural Accelerator让矩阵运算性能实现质变,把TTFT性能提升了3倍。这不是跑分表上的数字游戏,而是体验层面的根本改善。从"把文档丢进去等两分半"到"等不到一分钟",这中间的差距,用过本地大模型的人都懂。
更值得关注的是产品线定位的微妙变化。一台Max级别的机器,在多个模型和场景下已经能正面对抗上代Ultra。这在以前是不可能的事情。M5 Max正在脱离传统笔记本SoC的逻辑,展现出"专业级AI计算卡"的雏形。
对于本地AI推理用户来说,M5 Max的实际意义很明确:长文档、长代码场景下的等待焦虑被大幅缓解了。你终于可以把一整份合同、一整篇论文、一整段代码丢给本地模型,而不用在漫长的等待中怀疑人生。
最后留一个悬念:如果Max已经到了这个水平,M5 Ultra会是什么样的存在?两颗M5 Max拼在一起,Neural Accelerator的算力翻倍,256GB统一内存……光是想想就让人期待。