vLLM 容器镜像

vLLM 是一个高效的大语言模型推理引擎，专为加速LLM推理任务而设计。它特别适合在大规模部署环境中使用，通过高效的资源管理和优化技术实现高吞吐量、低延迟的推理。

云容器控制台使用：控制台使用

云容器JupyterLab使用：JupyterLab使用

选择镜像

创建实例时，选择【vLLM】镜像：

选择vLLM镜像.png#365px #215px

当前支持的版本

vLLM版本	Ubuntu版本	CUDA版本	Python版本
0.11.0	22.04	12.8	3.12

当前支持的版本会随着vLLM版本的更新而更新。

使用vLLM

预置的 HuggingFace 的模型放在 /data/hf/models ，启动vLLM前可以先查看该目录下是否已有与下载好的模型，可以直接使用；

同时配置了环境变量 HF_HOME=/data/hf/models ，HuggingFace下载的模型默认会放在这个目录下。

使用镜像站下载 HuggingFace 模型请参考：huggingface下载模型

使用以下命令启动vllm的模型服务：

vllm serve \ 
    /data/hf/models/Qwen3-0.6B \ 
    --host 0.0.0.0 \ 
    --port 8001

/data/hf/models/Qwen3-0.6B 为模型名称，可以是本地与下载的模型，也可以是如 Qwen/Qwen3-0.6B 的HuggingFace模型名进行自动下载；
其他参数请自行配置。

注意：vllm serve 的模型服务必须起在 8001 端口下才能通过端口映射供外部调用APIs

访问vLLM APIs

在控制台中，查看实例的【IP】和【预留端口】，端口选择内网端口8001映射的外网端口；

vLLM调用链接.png#954px #126px

vLLM API 的调用的 base_url 为 http://<IP>:<8001映射外网端口>/v1 。

API验证-获取models

curl http://<IP>:<8001映射外网端口>/v1/models

API验证-推理

curl http://<IP>:<8001映射外网端口>/v1/completions \ 
  -H "Content-Type: application/json" \ 
  -d '{
    "model": "/data/hf/models/Qwen3-0.6B",
    "prompt": "请介绍一下人工智能的历史",
    "max_tokens": 100,
    "temperature": 0.7
  }'