大显存还是强核心?ComfyUI 工作流下的显卡性能真实对比

基于 ComfyUI 官方图生视频工作流,对 RTX 4090(24GB / 48GB)、RTX 5090 32GB 以及 RTX Pro 6000 96GB 进行了系统测试。结果显示,大显存在低分辨率下能有效弥补算力差距,而在高分辨率场景中,核心架构与显存带宽的优势开始主导性能表现。显存容量与核心性能并非对立,而是取决于具体工作流需求。

ComfyUI 5090和4090实测算力对比

大显存和更强的核心,到底哪个更重要?

这是一个在 AI 绘图和视频生成圈子里,被反复讨论的问题。这一期测试,正是围绕这个核心矛盾展开的。

最初的想法很简单: 对比 RTX 5090 32GB 和 RTX 4090 48GB,看看新一代架构与更大显存之间,到底谁更占优势。

但很快就发现,这个对比并不“干净”。

5090 不只是核心更强,显存规格也升级到了 GDDR7; 4090 48GB 则是在核心不变的前提下,把显存容量直接翻倍。

为了让结论更有说服力,这次测试额外引入了两张卡:

  • RTX 4090 24GB 公版
  • RTX Pro 6000 96GB(个人工作站最强单卡)

这样一来,四张卡横向对比,既覆盖了核心代际差异,也把显存容量这个变量完整拉进了视野。


四张显卡的核心规格差异

先简单看一下硬件层面的关键变化。

显存与带宽

  • RTX 4090(24GB / 48GB)
    • GDDR6X
    • 384-bit 位宽
    • 带宽约 1.01 TB/s
  • RTX 5090 32GB
    • GDDR7
    • 位宽提升至 512-bit
    • 带宽约 1.79 TB/s
    • 带宽提升幅度约 77%

这个数字非常夸张,甚至已经超过了部分 HBM2e 方案。

显存容量上,5090 反而比 4090 48GB 少了 16GB,但显存代际的进步非常明显。

核心与功耗

  • CUDA 核心数量
    • RTX 4090:16384
    • RTX 5090:21760(+33%)
  • 制程
    • 5090 仍为 5nm(可视作 5nm+)
  • 功耗
    • 4090:450W
    • 5090:575W(+28%)

核心规模和频率的提升,带来了实打实的算力增长,但代价也很明确——功耗显著上升。


张量核心与理论算力

在 AI 工作负载中,张量核心比 CUDA 核心更关键。

可以简单理解为:

  • CUDA 核心:什么都能算
  • Tensor Core:只干一件事,矩阵乘加(AI 最需要的)

理论 FP32 性能

以 RTX 4090 为例:

  • 16384 CUDA × 2.5 GHz × 2(FMA)
  • ≈ 82.6 TFLOPS

RTX 5090 在 FP32 上的理论性能,大约比 4090 提升 27%

而在 Tensor Core 上,5090 和 Pro 6000 使用的是第五代张量核心,原生支持 FP6 / FP4 精度,这一点 4090 是不具备的。


测试环境与方法

为了避免变量干扰,本次测试在完全一致的软硬件环境下进行。

硬件平台

  • CPU:AMD Ryzen 9 9950X
  • 内存:96GB

软件环境

  • Python 3.12.10
  • PyTorch 2.7 + CUDA 12.8
  • ComfyUI 3.59
  • xFormers 0.3.0
  • 显卡驱动:580.97(统一版本)

测试规则

  • 使用 ComfyUI 官方 WAN 2.2 工作流
  • 图生视频(i2v)
  • 模型规模:14B
  • 帧率:16 FPS
  • 视频时长:约 5 秒
  • 每张卡测试 5 次,去除首次加载时间,取后 4 次平均值

使用 ComfyUI 可以上晨涧云AI算力平台租用云容器,多种显卡可选,支持按时计费,可以在原系统环境上更换显卡、升降配置,优化算力调度,长租更优惠。


实测结果:480P 分辨率

显卡平均生成时间
RTX 4090 24GB67.35 s
RTX 4090 48GB50.32 s
RTX 5090 32GB42.50 s
RTX Pro 6000 96GB26.67 s

几个非常直观的结论:

  • 4090 48GB 比 24GB 快约 25%
  • 5090 相比 4090 48GB 再快约 15%
  • Pro 6000 的优势非常明显,速度差距远大于理论算力差距

大显存在低分辨率下,已经可以明显弥补核心算力不足的问题。


实测结果:720P 分辨率

显卡平均生成时间
RTX 4090 24GB216.69 s
RTX 4090 48GB187.09 s
RTX 5090 32GB139.77 s
RTX Pro 6000 96GB< 100 s

分辨率上来之后,事情开始发生变化。

  • 5090 开始明显体现架构优势
  • 相比 4090 48GB 快约 25%
  • Pro 6000 依然是唯一进入百秒内的显卡

真正的关键:显存如何被用掉的

有意思的地方在这里。

在所有测试中,模型 + 中间数据的总占用,几乎都在 80GB 左右。 而 ComfyUI 的机制是:显存不够,就用内存补。

于是问题出现了:

  • 4090 24GB
    • 显存占满
    • 内存分摊到 45GB
  • DDR5 双通道带宽 ≈ 100GB/s
  • 显存带宽起步就是 TB/s

慢,是必然的。

在 480P 下,4090 48GB 可以把更多模型直接塞进显存,速度自然不落后; 而在 720P 下,数据规模扩大,5090 的架构和带宽优势开始全面释放。

即便是 Pro 6000,96GB 显存也并非全部用满,说明显存够用之后,架构和带宽才真正决定上限


总结:该怎么选?

如果你问一个简单结论:

  • 图生视频、重工作流
    • 显存依然非常重要
    • 但高分辨率下,核心和带宽优势无法忽视

4090 48GB 并不是“魔改智商税”, 5090 也不是“只有参数好看”。

它们各自有明确适合的场景。

这次测试,并不是为了分出“谁碾压谁”, 而是要明确一个问题——ComfyUI 工作流,真正吃的是什么。

阅读更多