本文主要介绍如何在Docker环境中进行端到端单机/多机GPT训练来判断GPU性能是否达标。
在处理GPU性能问题时,如果执行了HostDiagnose、Easy_NCCL等操作后仍无法定位到异常或者需要模拟真实业务场景时,您可以通过端到端单机/多机GPT训练,模拟用户真实业务来判断GPU性能是否达标,从而节省依赖安装、编译、配置端口、免密等繁琐步骤。
说明
除HostDiagnose、Easy_NCCL等实例内部的操作之外,您也可以在实例诊断控制台一键诊断GPU设备,并根据指引完成异常修复(如有)。相关文档请参见实例诊断,该功能正在邀测中,如需使用,请联系客户经理申请。
GPT(Generative Pre-trained Transformer )指OpenAI发布的一系列大型语言模型,它们在大型文本数据集上训练,可被用于文本生成,翻译,分类等任务。GPT系列包括GPT-3,GPT-4等。
有关实例机型的更多信息,请参见实例规格介绍。
python --version docker --version
请将
-i
后的IP替换为每台实例主网卡的私网IP地址,不同IP之间用“,”分隔,顺序可以互换。如何查看私网IP地址,请参考查看实例信息。
python3 mlp_easy_gpt.py -i <实例的私网IP地址>
python3 mlp_easy_gpt.py -i <node1的私网IP地址,node2的私网IP地址>
类型 | node1(主节点) | node2 |
---|---|---|
查看性能 | 说明 主节点输出性能数据,多节点性能数据以单节点线性扩展,计算公式如下:
| 无操作 |
收集日志 | 主节点收集distributed_gpt.log文件:
| |
查看RDMA监控流量 | 如何查看实例GPU/RDMA监控数据。 | |