MorningAI

首页

目录

GPU算力操作流程

本文重点介绍算力租用创建实例系统之后的操作流程,大概包括以下步骤

  1. 登入系统

  2. 检查环境

  3. 文件传输

  4. 数据下载

  5. 部署训练

登入系统

创建完实例系统之后,可以选不同的远程方式,登入系统
控制台默认支持的远程方式:

  1. Windows系统默认支持远程桌面,WebUI,windows连接方式

  2. Ubuntu系统默认支持SSH, WebUI, Ubuntu系统安装远程连接工具

  3. Centos系统默认支持SSH
    控制台文档请看 控制台我的实例
    WebUI文档请参考 WebUI使用

检查环境

登入系统之后,根据应用场景,检查需要的软件是否已经安装,若没有,可以自行部署
晨涧云默认支持以下应用场景

  1. 深度学习,默认安装有Conda, Python, Python, Cuda, Pycharm, VScodo, 等

  2. 大模型,默认安装有Ollama 、LLamaFactory、DeepSeek 或 ComfyUI等

  3. 云计算,默认安装显卡驱动、Cuda 、Docker等
    实际环境可以参考文档 预装环境

比如深度学习场景,可以选择环境,检查软件版本是否符合业务需要, 参考文档 选择Conda虚拟环境
验证显卡驱动,Cuda版本,系统内存,存储等是否满足要求

如果预装的环境不满足业务需求,可以自己安装所需要的软件环境,显卡驱动和Cuda 安装可以参考 Ubuntu NVIDIA显卡驱动安装 或者 安装CUDA Toolkit + Cudnn

文件传输

要在远程系统部署训练模型,需要把本地或者网络上的文件、代码、数据集等,传输到晨涧云系统实例里
可以传输的文件包括

  1. 代码、软件、数据集、模型、图片

  2. Conda环境打包

  3. Docker 镜像

文件传输的方式和工具 可以参考 文档

数据下载

数据下载包括数据集,代码库等下载

  1. 代码或数据集github下载,gibhub国内连接不稳定可以设置代理

  2. huggingface 模型或数据集下载,优先hf-mirror国内镜像站,如果国内镜像站没有,可以设置代理

  3. docker镜像下载,ubuntu22.04系统docker 安装好并且设置好docker代理

  4. 其他数据集或软件下载,如果没有国内源,可以设置代理
    本站提供代理服务,代理地址及设置详见稳定 设置代理

部署训练

把代码传输到系统之后,选择运行环境,检查安装依赖,运行代码
运行时查看资源占用 windows查看显卡GPU利用率Ubuntu查看显卡GPU利用率