进入submit new job的页面,进行job的创建。
-
job template,可以理解为您要使用的深度学习的框架,可选caffe training example、pytorch-bert、tensorflow training example、tensorflow-IPython-GPU、tutorial-dl共五种,对应着caffe、pytorch、tensorflow等主流的深度学习框架。
-
job name, job的名称,可自定义。
-
job type,可以分为regular job和distributed job。
-
number of GPUs,申请的gpu使用数目。
-
Docker Image, 和job template是一一对应的,比如选择pytorch-bert,会选择qianjiangyuan/algorithm-bert:1.7的镜像,里面会安装pytorch所需的依赖,使用Docker可以省去配置开发环境的麻烦。
-
command, 模块选择后会填入默认的start script,可以做一些修改。
-
其他参数设置在配置项说明的做详细阐述。
创建完job之后,会跳转到view and manage jobs的模块。
可以在running jobs中看到刚创建的job,以及看到相应的ID、名字、状态、占用的GPU数目、使用者、提交时间、开始时间以及操作项。
可以看到job的status会依次经历approved、queued、scheduling、running等状态。
点击job的id可以进入job的详情。
job详情页可以分为以下六个子模块。
- base info:展示了这个job的基本信息
- Job Folder
- Mapped Endpoints:登录job工作环境的三种方式,ssh以及两个web界面
- Job Console Output
- Run Command
- Job analytics and monitoring
目前只有kill的操作
通过Mapped Endpoints中的登录方式,就可以登录到pod容器中,等于分配了一个带GPU、预装了一些环境的虚拟环境,可以进行相应的深度学习,实际使用代码参考2.5章节。