主账号是通过火山引擎官网注册的账号,该账号拥有火山引擎下所有服务的访问权限并能在该账号下创建子账号并分配特定的权限,同时主账号是用户在火山引擎上的计费主体,主账号下所有子账号产生的费用也归属于主账号。
由主账号在火山引擎【访问控制(IAM)】系统中创建的账号,该账号创建时默认不具备任何火山引擎服务的访问权限,需要主账号分配特定的权限策略之后,普通用户通过的主账号分配的子账号密码登录并使用机器学习平台及火山引擎的其它服务。
AccessKey ID(AK)和 AccessKey Secret(SK)是您访问火山引擎 API 的密钥,具有该账户的所有权限,且最多只能创建两份密钥。请妥善保管和定期更换密钥以确保账号安全,相关的管理入口在 密钥管理, 具体的操作步骤可参考密钥管理-帮助文档。用户在使用 命令行工具访问私有的 TOS 数据时需要提前配置 AK / SK 用于身份认证。
访问控制(Identity Access Management,IAM)是火山引擎为客户提供的一套权限管理系统。在该系统里,用户可在账号下创建若干身份并赋予特定的权限,实现权限的按需分配管理。例如某些企业场景里,企业将不同资源的访问权限分配到不同 IAM 用户让各个员工使用,从而让团队成员各司其职,协作完成某个项目,同时也降低了安全风险。机器学习平台上常见的权限配置可参考权限管理。
对象存储(Tinder Object Storage,TOS)是火山引擎提供的海量、安全、低成本、易用、高可靠、高可用的分布式云存储服务。用户可以通过 TOS 的 RESTful API 接口、SDK 等多种形式使用火山引擎 TOS。通过网络,您可以在任何应用、任何时间、任何地点管理和访问火山引擎 TOS上的数据。TOS 是机器学习平台依赖的云服务之一,用户注册在机器学习平台上的数据和模型都实际存储在 TOS 上,常用的数据上传方法详见上传数据至 TOS。
大数据文件存储(Cloud File System,CloudFS)是火山引擎面向大数据和机器学习生态的文件存储和加速服务,支持标准的 HDFS 协议访问和数据湖透明访问模式,为您提供低成本、高性能、高吞吐和高可用的大数据文件访问服务。用户在机器学习平台内需要基于 CloudFS 将 TOS 作为共享文件系统挂载到容器内使用,同时通过 CloudFS 提供的缓存能力加速训练。
私有网络(VPC,Virtual Private Cloud)为云上资源构建隔离的、自主配置和管理的虚拟网络环境,您可以在私有网络中自定义IP地址段、安全组、路由策略等网络特性,方便地管理、配置云上网络,安全快捷地进行网络变更。在机器学习平台中需要先完成全局的 VPC 配置才能正常使用开发机的私网登录、挂载 NAS / vePFS 共享文件系统等功能。
火山引擎 NAS(Network Attached Storage)是一种基于 POSIX 文件接口的可共享访问、可扩展、高可靠、高性能的分布式文件系统,被广泛应用于大规模的数据共享、大数据分析、机器学习等场景。机器学习平台的用户将 NAS 挂载到开发机、自定义训练任务或在线服务中可以实现高效便捷的数据访问。
vePFS(Volc Engine Paralleled File System)是一种高性能、可扩展的并行文件系统,被广泛应用于机器学习、基因计算、自动驾驶等需要超高吞吐的应用场景。与 NAS 和 TOS 类似,用户如果想在训练过程中访问大规模的训练数据,可以将 vePFS 作为数据盘挂载到训练容器中。
镜像仓库(Container Registry,CR)是火山引擎提供的安全高可用的容器镜像、Helm Chart 等符合 OCI 标准的云原生制品托管服务,方便用户对符合 OCI 标准的云原生制品进行全生命周期管理。CR 是机器学习平台依赖的云服务之一,机器学习平台的预置镜像以及用户注册的自定义镜像都实际存储在 CR 上。
托管 Prometheus 服务(Volcengine Managed Service for Prometheus,VMP)是完全继承和对接开源 Prometheus 生态,并托管在火山引擎云端的监控产品。机器学习平台支持将用户的监控数据推送至用户的 VMP 下供自由使用。
地域(Region)是指物理数据中心所在的不同地理地域,不同地域之间内网完全隔离,保证不同地域间最大程度的稳定性和容错性。目前机器学习平台支持华北2(北京)、华东2(上海)等多个地域。
可用区 AZ(Availability Zone)是指在同一地域(Region)内,电力和网络互相独立的物理区域。
Tensor 配置在机器学习平台上指的是一个模型的输入输出 Tensor 的名称、精度、尺寸,借助这些信息平台才能正确地部署模型、完成性能评估和模型转换。
TensorBoard 是一种机器学习实验可视化的工具。用户在创建训练任务时开启 TensorBoard 功能并在代码中将对应的日志文件写入指定的路径(环境变量 TENSORBOARD_LOG_PATH
指代的路径)下,机器学习平台即可为用户跟踪和可视化损失、准确率、网络结构、权重变化等训练信息。
TensorFlow Parameter Server 是一种常见的分布式训练范例之一。支持在多台机器上进行参数服务器(parameter server,ps)训练。在每一轮训练中由参数服务器(ps)将最新的模型参数分发给工作进程( worker),worker 完成计算后将梯度回传给 ps,ps 更新参数后再进入下一轮训练,直至训练完成。在机器学习平台上发起 TensorFlowPS 分布式训练的方法详见发起 TF PS 分布式训练。
PyTorch DistributedDataParallel(DDP)是一种常见的分布式训练范例之一。通过 DDP 创建多个进程进行模型训练并为每个模型副本分配不同的训练数据,通过 ring-all-reduce 的方法做进程通讯,完成梯度的交换及参数更新。在机器学习平台上发起 DDP 分布式训练的方法详见发起 PyTorch DDP 分布式训练。
MPI 是一种基于信息传递的并行编程技术,是一组用于多节点数据通信的标准。在机器学习平台支持用户在平台上发起 MPI 的分布式训练任务,也支持用户通过 Horovod、DeepSpeed 等基于 MPI 封装的训练框架发起任务,详见发起 MPI 分布式训练。
BytePS 是一种 ByteDance 自研的分布式训练框架,目前已经在GitHub上开源。与 Horovod 类似,也支持如 TensorFlow、PyTorch、MXNet 的深度学习框架。BytePS 对于通信密集型任务的性能显著超越同等条件下的 Horovod、PyTorchDDP。目前落地场景包括 BERT、GAN 等大规模训练。在机器学习平台上发起 BytePS 分布式训练的方法详见发起 BytePS 分布式训练。
NCCL(The NVIDIA Collective Communications Library)是 NVIDIA 发布的集合通信库,支持 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter 等通信原语,常用的 Horovod 分布式训练框架的底层通信也是基于 NCCL。
一种付费模式。用户提前确定所需的资源量并以 包年包月 的形式付费购买,并在购买时长到期之前可任意使用。比如在机器学习平台上购买了 1 个包含 8Core + 32GiB + 1 张 Tesla-V100 GPU 的 预付费资源组,购买时长为 12 个月,在这 12 个月以内用户在该资源组下的队列中执行任务不再收取这部分资源的费用。
一种付费模式。用户事先无法确定资源的使用时长,此时可以先使用再付费,付费的金额由使用的时长及对应的资源单价决定。比如在机器学习平台上的 后付费资源组 下的队列中执行了 1 个包含 8Core + 32GiB + 1 张 Tesla-V100 GPU 的训练任务,任务运行时长为 1 小时,最终的总费用为这部分的资源单价 x 1 小时。