晨涧云文档

首页

目录

基于ResNet-50模型的显卡性能测试

晨涧云算力平台支持3090、4090、5090等显卡的租用,这3张显卡是英伟达三代消费级显卡的旗舰,这里用ResNet-50模型训练的性能测试来比较下这3代旗舰显卡的算力表现,以便于深度学习场景用户更好的选择合适的显卡。
补充测试A100 40G和4090 48G两张显卡在ResNet-50模型训练场景下的性能表现。

显卡参数规格

RTX5090RTX4090RTX3090A100 40G4090 48G
架构BlackwellAda LovelaceAmpereAmpereAda Lovelace
CUDA核心21,76016,38410,4966,91216,384
显存容量32 GB GDDR724 GB GDDR6X24 GB GDDR6X40GB HBM248 GB GDDR6X
显存带宽1792 GB/s1,008 GB/s936 GB/s1,555 GB/s1,008 GB/s
TDP功耗575W450W350W250W450W
FP32 算力104.8 TFLOPS82.6 TFLOPS35.6 TFLOPS19.5 TFLOPS82.6 TFLOPS
Tensor FP16 算力419 TFLOPS330 TFLOPS142 TFLOPS312 TFLOPS330 TFLOPS

为什么使用ResNet-50模型

ResNet-50是经典的计算机视觉模型,一种深度为50 层的卷积神经网络(CNN),是深度学习领域使用最广、最成熟的基准模型之一。
ResNet-50模型平衡,参数数量及显存占用适中,涵盖了深度学习训练的关键计算模式,包含大量矩阵计算,可以评估AI核心的算力;同时各种框架(PyTorch/TensorFlow/JAX/ONNX)都内置,可以直接加载。

这里基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试。

显卡性能实测

使用不同的模型精度(FP32和FP16混合精度),不同批次大小,多轮运行测试统计指标取平均值。

5090

ResNet50AI性能测试-5090-1.png#622px #540px

4090

ResNet50AI性能测试-4090-1.png#622px #540px

3090

ResNet50AI性能测试-3090-1.png#622px #540px



下面的A100 40G和4090 48G的测试,因为显存较大,增加了Batch Size=384的样本吞吐测试。

A100 40G

ResNet50AI性能测试-A100_40G.png#622px #620px

4090 48G

ResNet50AI性能测试-4090_48G.png#622px #620px

测试结果分析

指标解释

  • 精度FP32 单精度训练,FP16 混合精度训练

  • BatchSize:训练批次大小

  • Samples/s:每秒样本吞吐量

  • VRAM (MB):平均显存使用量

  • GPU Util (%):平均GPU利用率

取最大的「每秒样本吞吐量」指标进行比较:

RTX5090RTX4090RTX3090A100 40G4090 48G
最大样本吞吐量(单精度)1,076699489880702
最大样本吞吐量(混合精度)1,8221,22483613211255

从上表的测试结果分析,使用ResNet-50模型的训练样本吞吐速度。

  • 结合单精度和混合精度模式,5090的样本吞吐速度是4090的1.5倍左右,4090的样本吞吐速度是3090的1.45倍左右

  • 单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%

  • 4090 48G魔改显卡相比原始4090 24G显卡在算力上并没有损失

 

可以结合这些显卡的租用价格,以及使用场景,选择合适的显卡创建实例。


租用GPU实例进行深度学习