晨涧云文档

首页

目录

vLLM 容器镜像

vLLM 是一个高效的大语言模型推理引擎,专为加速LLM推理任务而设计。它特别适合在大规模部署环境中使用,通过高效的资源管理和优化技术实现高吞吐量、低延迟的推理。

云容器控制台使用:控制台使用

云容器JupyterLab使用:JupyterLab使用

选择镜像

创建实例时,选择【vLLM】镜像:

选择vLLM镜像.png#365px #215px

当前支持的版本

vLLM版本Ubuntu版本CUDA版本Python版本
0.11.022.0412.83.12

当前支持的版本会随着vLLM版本的更新而更新。

使用vLLM

预置的 HuggingFace 的模型放在 /data/hf/models ,启动vLLM前可以先查看该目录下是否已有与下载好的模型,可以直接使用;

同时配置了环境变量 HF_HOME=/data/hf/models ,HuggingFace下载的模型默认会放在这个目录下。

使用镜像站下载 HuggingFace 模型请参考:huggingface下载模型

使用以下命令启动vllm的模型服务:

vllm serve \ 
    /data/hf/models/Qwen3-0.6B \ 
    --host 0.0.0.0 \ 
    --port 8001

/data/hf/models/Qwen3-0.6B 为模型名称,可以是本地与下载的模型,也可以是如 Qwen/Qwen3-0.6B 的HuggingFace模型名进行自动下载;
其他参数请自行配置。

注意:vllm serve 的模型服务必须起在 8001 端口下才能通过端口映射供外部调用APIs

访问vLLM APIs

在控制台中,查看实例的【IP】和【预留端口】,端口选择内网端口8001映射的外网端口;

vLLM调用链接.png#954px #126px

vLLM API 的调用的 base_urlhttp://<IP>:<8001映射外网端口>/v1

API验证-获取models

curl http://<IP>:<8001映射外网端口>/v1/models

API验证-推理

curl http://<IP>:<8001映射外网端口>/v1/completions \ 
  -H "Content-Type: application/json" \ 
  -d '{
    "model": "/data/hf/models/Qwen3-0.6B",
    "prompt": "请介绍一下人工智能的历史",
    "max_tokens": 100,
    "temperature": 0.7
  }'