通过功能总览用户对各模块有了初步的了解,而用户指南中包含各模块中重要功能的使用方法以及限制的详细介绍。当用户在某个功能模块遇到问题时,可以在用户指南对应的模块章节中寻求解决方法。下文对各模块指南的主要内容进行介绍。
资源组
- 创建资源组:想要使用高性价比的计算资源需要预付费创建(购买)资源组。
- 资源组管理:
- 权限的管理:只要拥有
MLPlatformAdminAccess
和 BillingCenterFullAccess
(原名 BillFullAccess
) 权限的用户即为资源组管理员,可进行一切资源组的操作。 - 资源的管理:当资源组出现资源不足、购买时长到期时可以选择扩容或者续费,不再使用资源组时请及时将资源组退订。具体操作请参考为资源组续费 / 更配 / 退订。
- 创建队列:
- 权限的管理:队列支持用户的添加及删除、配置各用户的队列权限(队列管理员或普通人员)/ 个人资源的使用上限。具体操作请参考管理队列内的用户。
- 资源的管理:队列资源不足可以选择扩容,资源过多时可以选择缩容或者将资源转让给其它同资源组下同可用区的队列。具体操作请参考为队列更配 / 转让资源。
- 实例规格列表及定价:运行任务需要选择特定的实例,实例规格及定价中列举了目前机器学习平台上支持的资源实例以及对应的单价。
镜像仓库
- 预置镜像列表:平台提供了大量常见的 CUDA 基础镜像、深度学习训练 / 推理镜像,详见预置镜像列表。
- 构建自定义镜像:当预置镜像不满足用户需求时,可以将其它镜像仓库的镜像迁移至机器学习平台,或者基于现有镜像 / Dockerfile 构建自定义镜像。详见构建自定义镜像。
开发机
- 创建开发机:建模初期需要对训练代码做开发和调试,请参考创建开发机完成开发机的创建。
- 使用开发机:支持从本地 SSH 连接到开发机容器,也支持在平台预置的 WebIDE 云端集成开发环境中使用开发机的算力进行开发和调试,具体方法详见连接开发机。
自定义训练
工作流
- 工作流模块支持将多个相对独立的自定义训练组织成为一个工作流,通过运行工作流,一键开启并推进,得到最终运行结果。
- 通过工作流,用户可实现机器学习全流程编排,串联起从数据处理、模型训练、模型评估、模型注册至服务发布的流程。
模型管理
- 导入模型:如果将存储在本地或者 TOS 上的模型注册到机器学习平台请参考导入模型,各种格式、框架的模型的文件目录规范请参考模型包规范,否则有可能无法通过相关校验。
- 模型评估:支持用户查看模型(目前仅支持【AutoML】模块产生的模型)的预测效果,具体支持的评估指标及使用方法请参考模型的效果评估。
- 删除模型:当模型或者模型版本不再使用需要删除时请参考删除模型 / 版本。
在线服务
- 部署及调用服务:模型训练完成需要部署为 API 进行调用时请依次参考将模型部署成服务、如何调用在线服务。在服务运行过程中想要了解服务的健康情况时请参考查看服务及实例的状态获取查看状态、监控以及日志的方法。
- 服务的管理:根据服务的实时状况,用户可以按需选择对服务实例数进行扩缩容或者升级模型等操作,同时所有对服务做的变更都会形成变更记录,具体请参考服务的变更及跟踪。当某个服务不再使用需要删除时参考删除服务中的方法操作即可。