大显存还是强核心?ComfyUI 工作流下的显卡性能真实对比
基于 ComfyUI 官方图生视频工作流,对 RTX 4090(24GB / 48GB)、RTX 5090 32GB 以及 RTX Pro 6000 96GB 进行了系统测试。结果显示,大显存在低分辨率下能有效弥补算力差距,而在高分辨率场景中,核心架构与显存带宽的优势开始主导性能表现。显存容量与核心性能并非对立,而是取决于具体工作流需求。
大显存和更强的核心,到底哪个更重要?
这是一个在 AI 绘图和视频生成圈子里,被反复讨论的问题。这一期测试,正是围绕这个核心矛盾展开的。
最初的想法很简单: 对比 RTX 5090 32GB 和 RTX 4090 48GB,看看新一代架构与更大显存之间,到底谁更占优势。
但很快就发现,这个对比并不“干净”。
5090 不只是核心更强,显存规格也升级到了 GDDR7; 4090 48GB 则是在核心不变的前提下,把显存容量直接翻倍。
为了让结论更有说服力,这次测试额外引入了两张卡:
- RTX 4090 24GB 公版
- RTX Pro 6000 96GB(个人工作站最强单卡)
这样一来,四张卡横向对比,既覆盖了核心代际差异,也把显存容量这个变量完整拉进了视野。
四张显卡的核心规格差异
先简单看一下硬件层面的关键变化。
显存与带宽
- RTX 4090(24GB / 48GB)
- GDDR6X
- 384-bit 位宽
- 带宽约 1.01 TB/s
- RTX 5090 32GB
- GDDR7
- 位宽提升至 512-bit
- 带宽约 1.79 TB/s
- 带宽提升幅度约 77%
这个数字非常夸张,甚至已经超过了部分 HBM2e 方案。
显存容量上,5090 反而比 4090 48GB 少了 16GB,但显存代际的进步非常明显。
核心与功耗
- CUDA 核心数量
- RTX 4090:16384
- RTX 5090:21760(+33%)
- 制程
- 5090 仍为 5nm(可视作 5nm+)
- 功耗
- 4090:450W
- 5090:575W(+28%)
核心规模和频率的提升,带来了实打实的算力增长,但代价也很明确——功耗显著上升。
张量核心与理论算力
在 AI 工作负载中,张量核心比 CUDA 核心更关键。
可以简单理解为:
- CUDA 核心:什么都能算
- Tensor Core:只干一件事,矩阵乘加(AI 最需要的)
理论 FP32 性能
以 RTX 4090 为例:
- 16384 CUDA × 2.5 GHz × 2(FMA)
- ≈ 82.6 TFLOPS
RTX 5090 在 FP32 上的理论性能,大约比 4090 提升 27%。
而在 Tensor Core 上,5090 和 Pro 6000 使用的是第五代张量核心,原生支持 FP6 / FP4 精度,这一点 4090 是不具备的。
测试环境与方法
为了避免变量干扰,本次测试在完全一致的软硬件环境下进行。
硬件平台
- CPU:AMD Ryzen 9 9950X
- 内存:96GB
软件环境
- Python 3.12.10
- PyTorch 2.7 + CUDA 12.8
- ComfyUI 3.59
- xFormers 0.3.0
- 显卡驱动:580.97(统一版本)
测试规则
- 使用 ComfyUI 官方 WAN 2.2 工作流
- 图生视频(i2v)
- 模型规模:14B
- 帧率:16 FPS
- 视频时长:约 5 秒
- 每张卡测试 5 次,去除首次加载时间,取后 4 次平均值
使用 ComfyUI 可以上晨涧云AI算力平台租用云容器,多种显卡可选,支持按时计费,可以在原系统环境上更换显卡、升降配置,优化算力调度,长租更优惠。
实测结果:480P 分辨率
| 显卡 | 平均生成时间 |
|---|---|
| RTX 4090 24GB | 67.35 s |
| RTX 4090 48GB | 50.32 s |
| RTX 5090 32GB | 42.50 s |
| RTX Pro 6000 96GB | 26.67 s |
几个非常直观的结论:
- 4090 48GB 比 24GB 快约 25%
- 5090 相比 4090 48GB 再快约 15%
- Pro 6000 的优势非常明显,速度差距远大于理论算力差距
大显存在低分辨率下,已经可以明显弥补核心算力不足的问题。
实测结果:720P 分辨率
| 显卡 | 平均生成时间 |
|---|---|
| RTX 4090 24GB | 216.69 s |
| RTX 4090 48GB | 187.09 s |
| RTX 5090 32GB | 139.77 s |
| RTX Pro 6000 96GB | < 100 s |
分辨率上来之后,事情开始发生变化。
- 5090 开始明显体现架构优势
- 相比 4090 48GB 快约 25%
- Pro 6000 依然是唯一进入百秒内的显卡
真正的关键:显存如何被用掉的
有意思的地方在这里。
在所有测试中,模型 + 中间数据的总占用,几乎都在 80GB 左右。 而 ComfyUI 的机制是:显存不够,就用内存补。
于是问题出现了:
- 4090 24GB
- 显存占满
- 内存分摊到 45GB
- DDR5 双通道带宽 ≈ 100GB/s
- 显存带宽起步就是 TB/s
慢,是必然的。
在 480P 下,4090 48GB 可以把更多模型直接塞进显存,速度自然不落后; 而在 720P 下,数据规模扩大,5090 的架构和带宽优势开始全面释放。
即便是 Pro 6000,96GB 显存也并非全部用满,说明显存够用之后,架构和带宽才真正决定上限。
总结:该怎么选?
如果你问一个简单结论:
- 图生视频、重工作流:
- 显存依然非常重要
- 但高分辨率下,核心和带宽优势无法忽视
4090 48GB 并不是“魔改智商税”, 5090 也不是“只有参数好看”。
它们各自有明确适合的场景。
这次测试,并不是为了分出“谁碾压谁”, 而是要明确一个问题——ComfyUI 工作流,真正吃的是什么。