GPU算力操作流程
本文重点介绍算力租用创建实例系统之后的操作流程,大概包括以下步骤
登入系统
检查环境
文件传输
数据下载
部署训练
登入系统
创建完实例系统之后,可以选不同的远程方式,登入系统
控制台默认支持的远程方式:
Windows系统默认支持远程桌面,WebUI,windows连接方式
Ubuntu系统默认支持SSH, WebUI, Ubuntu系统安装远程连接工具
检查环境
登入系统之后,根据应用场景,检查需要的软件是否已经安装,若没有,可以自行部署
晨涧云默认支持以下应用场景
深度学习,默认安装有Conda, Python, Python, Cuda, Pycharm, VScodo, 等
大模型,默认安装有Ollama 、LLamaFactory、DeepSeek 或 ComfyUI等
云计算,默认安装显卡驱动、Cuda 、Docker等
实际环境可以参考文档 预装环境
比如深度学习场景,可以选择环境,检查软件版本是否符合业务需要, 参考文档 选择Conda虚拟环境
验证显卡驱动,Cuda版本,系统内存,存储等是否满足要求
如果预装的环境不满足业务需求,可以自己安装所需要的软件环境,显卡驱动和Cuda 安装可以参考 Ubuntu NVIDIA显卡驱动安装 或者 安装CUDA Toolkit + Cudnn
文件传输
要在远程系统部署训练模型,需要把本地或者网络上的文件、代码、数据集等,传输到晨涧云系统实例里
可以传输的文件包括
代码、软件、数据集、模型、图片
Conda环境打包
Docker 镜像
文件传输的方式和工具 可以参考 文档
数据下载
数据下载包括数据集,代码库等下载
代码或数据集github下载,gibhub国内连接不稳定可以设置代理
huggingface 模型或数据集下载,优先hf-mirror国内镜像站,如果国内镜像站没有,可以设置代理
docker镜像下载,ubuntu22.04系统docker 安装好并且设置好docker代理
其他数据集或软件下载,如果没有国内源,可以设置代理
本站提供代理服务,代理地址及设置详见稳定 设置代理
部署训练
把代码传输到系统之后,选择运行环境,检查安装依赖,运行代码
运行时查看资源占用 windows查看显卡GPU利用率 或 Ubuntu查看显卡GPU利用率