平台提供 TOS、NAS、vePFS 多种存储方案,并支持以共享文件系统的形式挂载到训练容器中。用户能在尽量不修改代码的前提下,像操作本地文件一样地操作远端数据,并在训练容器停止或者删除后远端数据也不会丢失。下文将以【开发机】为例介绍如何挂载共享文件系统。
相关概念
使用前提
- 至少存在 >= 1 个 NAS / vePFS 的实例(需要额外联系管理员创建)或者 TOS 的存储桶(Bucket)。
- 创建 NAS 实例前需要联系机器学习平台团队对接。
操作步骤
参考创建开发机完成开发机的创建(如果使用的是【自定义训练】模块则参考发起单机 / 分布式训练任务创建训练任务),填写完镜像、资源组、计算规格等基本信息后进入共享文件系统的挂载环节。
根据用户的实际需要选择添加 TOS、NAS、vePFS 中的一种或多种共享文件系统,每种存储方案的共享文件系统需要配置的参数不尽相同。
存储方案 | 配置说明 |
---|
TOS | - 源地址
- 挂载地址
- 填写 TOS 文件系统在训练容器中的挂载地址。必填。
- 地址格式为
/xxx/yyy 。 - 该地址与其它共享文件系统的挂载地址不能重复或者存在包含关系,如
/path1/path2 和 /path1 中后者是前者是父级目录。
- AccessKey ID / AccessKey Secret
- 每挂载 1 个 TOS 共享文件系统需要消耗训练容器
5GiB 的内存资源,所以建议选择内存较大的实例规格。
|
NAS | - 实例名称
- 选择可用的 NAS 实例。必填。
- 每个 NAS 实例会所属于某个可用区(AZ),为了避免数据访问过程中的较大延迟,NAS 实例的 AZ 需要与计算节点(或训练任务)的 AZ 相同。
- 挂载地址
- 填写 NAS 共享文件系统在训练容器中的挂载地址。必填。
- 地址格式为
/xxx/yyy 。 - 该地址与其它共享文件系统的挂载地址不能重复或者存在包含关系。
|
vePFS | - 实例名称
- 选择可用的 vePFS 实例。必填。
- vePFS 实例的 AZ 需要与计算节点(或训练任务)的 AZ 相同,原因与 NAS 相同。
- 挂载地址
- 填写 vePFS 共享文件系统在训练容器中的挂载地址。必填。
- 地址格式为
/xxx/yyy 。 - 该地址与其它共享文件系统的挂载地址不能重复或者存在包含关系。
- 目前每个主账号仅支持创建 1 个 vePFS 实例,因此最多只能挂载一块 vePFS 共享文件系统。
|
填写完上述配置后提交表单等待开发机状态达到运行中
后,通过使用顶部菜单的【Terminal】-【New Terminal】打开终端,在终端(或者训练代码)读写各共享文件系统中的文件。