晨涧云文档
首页
目录
- GPU算力租用流程
- Ubuntu查看显卡GPU利用率
- Ubuntu系统安装CUDA Toolkit + Cudnn
- Ubuntu NVIDIA显卡驱动安装
- Ubuntu用户界面入门
- Windows jupter notebook 的使用
- Windows 安装SSH Server
- windows查看显卡GPU利用率
- Ubuntu镜像
- Windows镜像
- CentOS镜像
- 深度学习 - Ubuntu
- 深度学习 - Windows
- 云计算 - Ubuntu
- 云计算 - Windows
- ComfyUI - Ubuntu
- LLaMA Factory - Ubuntu
- Stable Diffusion - Ubuntu
- Ubuntu 命令行使用
- ComfyUI - Windows
- LLaMA Factory - Windows
- Stable Diffusion - Windows
- 秋叶Stable Diffusion - Windows
- Ollama DeepSeek - Windows
- Ollama DeepSeek - Ubuntu
- 【模型】Ollama + Open WebUI - Ubuntu
- 【语音】 Whisper 语音转文本 - Ubuntu
- Chatbox - Windows
- Ubuntu系统安装远程连接工具
- Windows登录方式
- 常用操作
- 学术资源加速
- 文件传输
- WebUI使用
- 服务端口配置
- SSH隧道映射端口
- VSCode连接到云主机
- conda 安装虚拟环境
- 选择Conda虚拟环境
- 晨涧云概览
- 晨涧云简介
- 名词术语
- 安装tensorflow
- 安装显卡驱动
- huggingface下载模型
- 连接失败处理
- 促销活动
- Miniconda3 容器镜像
- PyTorch 容器镜像
- TensorFlow 容器镜像
- GROMACS 容器镜像
- ComfyUI 容器镜像
- Matlab - Windows
- YOLO 容器镜像
- LLaMA-Factory 容器镜像
- Wan-ComfyUI 容器镜像
- Stable-Diffusion 容器镜像
- vLLM 容器镜像
- LAMMPS 容器镜像
- Ollama 容器镜像
- Flux-ComfyUI 容器镜像
- ComfyUI应用
- Wan2.2文生视频显卡性能测试
- 深度学习场景
- 基于ResNet-50模型的显卡性能测试
- 大语言模型场景
- 使用vLLM测试大模型推理场景的显卡性能
- 晨涧云产品重磅升级:云容器按量计费+控制台实例管理全新改版,重塑AI开发效率与成本体验
- Qwen-ComfyUI 容器镜像
- 晨涧云平台手册
- Windows操作
- GPU算力操作流程
- 云容器租用流程
- 系统预装环境
- Ubuntu操作
- 云容器控制台使用
- 云主机控制台使用
- JupyterLab使用
- 云主机镜像中心
- 云容器百度网盘使用
- 新容器镜像来了!宝藏镜像库+秒级部署,GPU直接8折!
- 云容器
- 【双十一显卡狂欢】🔥NVIDIA 3090/3080 史低八折!性能猛兽,价格温柔!
- 云容器按小时计费
- 技术相关
- 云容器镜像
- 应用场景
- 晨涧云新老用户专享福利
- 微信登录立享6元优惠券
- 开学季|3090显卡专属福利🎯(2025年9月)
vLLM 容器镜像
vLLM 是一个高效的大语言模型推理引擎,专为加速LLM推理任务而设计。它特别适合在大规模部署环境中使用,通过高效的资源管理和优化技术实现高吞吐量、低延迟的推理。
云容器控制台使用:控制台使用
云容器JupyterLab使用:JupyterLab使用
选择镜像
创建实例时,选择【vLLM】镜像:

当前支持的版本
| vLLM版本 | Ubuntu版本 | CUDA版本 | Python版本 |
|---|---|---|---|
| 0.11.0 | 22.04 | 12.8 | 3.12 |
当前支持的版本会随着vLLM版本的更新而更新。
使用vLLM
预置的 HuggingFace 的模型放在 /data/hf/models ,启动vLLM前可以先查看该目录下是否已有与下载好的模型,可以直接使用;
同时配置了环境变量 HF_HOME=/data/hf/models ,HuggingFace下载的模型默认会放在这个目录下。
使用镜像站下载 HuggingFace 模型请参考:huggingface下载模型
使用以下命令启动vllm的模型服务:
vllm serve \
/data/hf/models/Qwen3-0.6B \
--host 0.0.0.0 \
--port 8001
/data/hf/models/Qwen3-0.6B 为模型名称,可以是本地与下载的模型,也可以是如 Qwen/Qwen3-0.6B 的HuggingFace模型名进行自动下载;
其他参数请自行配置。
注意:vllm serve 的模型服务必须起在 8001 端口下才能通过端口映射供外部调用APIs
访问vLLM APIs
在控制台中,查看实例的【IP】和【预留端口】,端口选择内网端口8001映射的外网端口;

vLLM API 的调用的 base_url 为 http://<IP>:<8001映射外网端口>/v1 。
API验证-获取models
curl http://<IP>:<8001映射外网端口>/v1/models
API验证-推理
curl http://<IP>:<8001映射外网端口>/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/data/hf/models/Qwen3-0.6B",
"prompt": "请介绍一下人工智能的历史",
"max_tokens": 100,
"temperature": 0.7
}'