晨涧云文档

首页

目录

深度学习 - Windows

本镜像提供了预配置的深度学习开发环境,操作系统为Windows 10专业版,对应镜像系统都配备了对应版本的深度学习框架和开发工具,方便用户快速开始深度学习项目开发。

操作系统

目前只支持Windows10 专业版 64位操作系统,版本号22H2

系统镜像选择

如果已经创建好 win10 深度学习 实例系统请跳过这里。

深度学习系统镜像选择的主要步骤有:

  • 通过平台【首页】的【云主机】/【镜像中心】链接,进入云主机的【镜像中心】页面
    image.png#734px #357px

  • 进入【镜像中心】的【云主机】页面,选择【深度学习】,根据应用场景的需要选择对应的Windows 10镜像。

  • 最后点击【部署实例】创建深度学习系统镜像,一般系统创建会花费5-10分钟左右。
    image.png#826px #399px

预装工具

  • 系统默认通过Anaconda管理环境,conda安装环境更方便,隔离性更好。

  • 系统默认已经安装两个环境,cuda是装在conda的env里面的。具体版本详见下面说明:

Anaconda|Python 3.10
Pytorch 2.4|Cuda 12.1|cuDNN 9.0
Pytorch 2.4|Cuda 11.8|cuDNN 8.9
PyCharm|VSCode
显卡驱动|百度网盘

远程连接

默认RDP连接

  • 通过点击主页的【控制台】,选择【云主机实例】,进入云主机实例管理页面,点击对应的实例远程登录中的【远程桌面RDP】。
    image.png#829px #376px

  • 点击【下载rdp】下载RDP文件,也可以通过复制电脑名称、用户名、密码进行远程连接,mac在App Store下载windows app 然后双击文件,输入密码连接
    image.png#701px #351px

  • 如果本机系统是windows也可以直接打开远程桌面连接,输入上图的电脑名称/用户名/密码连接,如下图:
    image.png#481px #326px

Windows其他连接方式

Windows系统还支持RustDesk,ToDesk, 向日葵,连连控,WebUI 等远程连接方式,具体请参阅云主机的远程连接方式:云主机远程连接指南
同时系统桌面上有Rustdesk向日葵TodeskRayLink的安装程序的快捷键,也可以自行安装设置。

环境配置指南

conda命令行

要打开Conda命令行,需要以管理员身份运行Window PowerShell
image.png#766px #303px

Anaconda Navigator图像界面

打开桌面上的应用程序 Anaconda Navigator,具体使用方法,就是打开环境,打开环境命令行,创建环境,删除环境等
2138e881779f21525c3e4bce082f2abc.jpg#603px #358px

选择环境

如果没有用过Anaconda , 建议先花几分钟去看一下官方的介绍和文档,助于理解虚拟环境的概念
选择python运行环境

查看显卡利用率

通过windows的任务管理查看

  • 非A100显卡的利用率查看
    在windows系统的任务栏,点右键,打开列表如下图,点击任务管理器
    image.png#697px #438px
    打开任务管理器之后,依次点击,性能,GPU
    可以初步检查GPU的使用情况,但是这个不是很准,而且如是用的A100计算卡,在这里看不到

  • A100显卡的利用率查看
    建议需要更准确详细的信息,用Windows Power Shell执行nvidia-smi查看,详见:【Windows Power Shell 查看GPU利用率】。
    参考下图的任务管理器,GPU运行情况主要关注利用率和专用GPU内存利用率
    image.png#552px #574px

Windows Power Shell 查看GPU利用率

首先通过搜索,打开PowerShell, 选择【以管理员身份运行】,如下图
image.png#636px #465px
打开Power Shell之后,执行命令 nvidia-smi查看
可以输入以下命令执行2秒刷新监控结果

while ($true) { nvidia-smi; Start-Sleep -Seconds 2; Clear-Host }

主页看显存占用Memor-Usage, GPU利用率GPU-Util ,还有当前使用GPU的进程数据Processes
image.png#562px #420px

常见问题

程序运行没用上GPU

1、先查看利用率和显存占用多少,如果利用率为0,显存有明显的占用,并且nvidia-smi看进程有,可能是程序在推理或者预处理阶段
2、如果利用率为0,显存也没占用,这个时候就要一步步分析问题了
第一步:conda环境选对了吗?pytorch可以执行简单的代码测试
项目内新建test.py文件,输入以下代码,点击运行查看,如果以下代码第二行输出为false,则可能conda环境没选择好

import torch
torch.cuda.is_available()
print(torch.__version__)

第二步:如果以上代码输出为true, 说明GPU环境是正常的,请测试debug你的业务代码,来定位原因


点击创建深度学习-Windows云主机实例