使用说明--E-MapReduce-火山引擎

文档中心

导航

E-MapReduce

使用说明

最近更新时间：2022.09.22 16:55:45首次发布时间：2022.04.28 13:01:14

EMR DataScientist 集群是火山引擎 E-MapReduce（EMR）的分布式训练方案。通过使用 ByteDance 自研的 Primus 训练调度框架，您可以轻易的在 YARN 集群上进行分布式的 TensorFlow 训练任务。
由于 Primus 本身为一个通用的多角色分布式训练调度框架，透过配置多种不同训练角色，Primus 即可支持 TensorFlow 内建的各种分布式策略如 Parameter Server。
alt

如上图所示，一个 Primus 训练任务的生命周期主要包含两个阶段，分别是 提交阶段 以及 运行阶段。

提交阶段：
在提交阶段时，您仅需要准备 Primus 训练配置和需要的训练资源如训练脚本，在您发送提交指令后，Primus Client 便会先将上传您指定的训练资源到 HDFS ，接着正式向 YARN Cluster 提交一个分布式任务。
运行阶段：
在顺利提交 Primus 训练任务后，Primus 训练任务便会进入运行阶段。
在这个阶段 Primus 会开始初始配置的训练角色，依序包含申请 Yarn Container，下载训练资源，最后执行该角色在 Primus 训练配置里所设定的运行指令。最终在成功启动所有训练角色后，Primus 训练任务会开始观察所有训练角色，当所有角色都满足定义在 Primus 训练配置中的退出条件后，Primus 训练任务便会成功退出。