使用vLLM测试大模型推理场景的显卡性能
晨涧云AI算力平台的云容器支持Ollama、vLLM等大模型推理镜像,Ollama简单易用,更适合桌面环境或者简单试用,vLLM则更适合对吞吐要求高的高并发生产环境。
所以这里选择使用vLLM云容器来比较下3090和4090这两张显卡在大模型推理场景下的算力表现。
选择大模型
选择 Qwen3的模型进行测试,考虑到都是24GB的显存,选择的是FP16精度的qwen3:8b模型进行测试。
借助ChatGPT 生成测试脚本,调整脚本控制变量:
使用复杂度近似的N个prompts;
MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;选择
[1, 4, 8, 16]4种BATCH_SIZES测试不同并发度下的性能表现;每轮测试执行3次推理,指标取平均;
同时需要模型预热,消除第一次推理响应延时过大的问题。
然后执行推理性能测试脚本,查看输出结果。
3090显卡大模型推理实测

4090显卡大模型推理实测

测试结果分析
Batch Size:一次推理调用的并发prompt数量
平均耗时 (s):多次推理平均响应时长
平均吞吐量 (tokens/s):多次推理平均Token生成速度
平均显存 (MB):多次推理平均显存使用量
平均GPU使用率(%):多次推理平均GPU使用率
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时及平均吞吐量两个指标:
| BatchSize | 指标 | RTX3090 | RTX4090 | 对比 |
|---|---|---|---|---|
| 1 | 平均耗时(s) | 5.44 | 4.61 | |
| 1 | 平均吞吐量(tokens/s) | 47.10 | 55.60 | 118.0% |
| 4 | 平均耗时(s) | 5.61 | 4.87 | |
| 4 | 平均吞吐量(tokens/s) | 182.70 | 210.40 | 115.2% |
| 8 | 平均耗时(s) | 5.82 | 4.94 | |
| 8 | 平均吞吐量(tokens/s) | 351.90 | 414.50 | 117.8% |
| 16 | 平均耗时(s) | 6.42 | 5.13 | |
| 16 | 平均吞吐量(tokens/s) | 638.40 | 798.50 | 125.1% |
BatchSize低于8的并发度场景下,4090的推理性能比3090高17%左右,且性能表现相对稳定;在16并发度下3090开始遇到性能瓶颈,而4090还有比较充足的性能空间。