本文介绍如何诊断高性能计算GPU型云服务器实例健康状态,便于您对其故障或性能指标不达预期进行定位。
使用限制
- 暂仅支持运行中状态的Linux操作系统实例使用本功能。
- 待诊断实例必须安装批量作业客户端。
- 若当前实例有正在进行的诊断任务,则需等待当前诊断完成后再发起下一次诊断。
操作说明
若为首次使用集群诊断服务,需要进行如下操作:
- 在实例诊断中,单击“立即创建”按钮触发角色请求,即为您的账号授权一个拥有云服务器资源读写授信的角色。关于实例诊断。
说明
- 若您已在实例诊断中为您的账号授权了一个拥有云服务器资源读写授信的角色(CustomRoleForDiagnose),则跳过该步骤。
- 单击“立即创建”按钮后,系统将会自动完成授权。
- 跨服务访问属于IAM角色实现,该角色将您的云资源权限授予当前云服务,当前服务将通过角色扮演来访问其他云服务资源。关于访问控制。
- 在集群诊断中,单击“立即创建”按钮触发角色请求,即为您的账号授权一个拥有云服务器资源读写授信的角色,高性能计算集群将扮演该角色访问您诊断任务涉及的云资源。
说明
- 单击“立即创建”按钮后,系统将会自动完成授权。
- 跨服务访问属于IAM角色实现,该角色将您的云资源权限授予当前云服务,当前服务将通过角色扮演来访问其他云服务资源。关于访问控制。
操作步骤
注意
- 该检测对实例上运行的业务有损,可能导致业务中断,检测前,请确认实例的业务状态,并选择合适的时间进行检测,例如在业务空闲时进行检测。
- 诊断前将在实例内自动安装相关包和依赖,自定义镜像环境中,相关包和依赖有安装失败的风险,未安装成功会导致相关检测项诊断失败。
- 登录实例控制台。
- 在左侧导航栏选择“实例与镜像 > 高性能计算集群”。
- 在顶部导航栏选择目标实例所在项目与地域。
- 单击“集群诊断”页签。
- 单击“创建诊断”按钮,配置如下信息。
参数 | 说明 | 取值样例 |
---|
诊断项选择 | 选择当前待诊断项,支持: - 单机诊断:
诊断GPU设备健康状态,为实例级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测GPU实例单机内的设备健康(驱动配置、GPU卡和网卡配置是否正常等)、NCCL Test、机内带宽等。关于诊断项汇总。 - 集群诊断:
诊断高性能计算集群连通性问题,为集群级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测集群中RDMA网卡和交换机的连通性,以及所选实例是否在同一个高性能计算集群、同一个VPC网络中。关于诊断项汇总。
| 单机诊断/GPU设备健康检查 |
高性能计算集群 | 选择待诊断实例的高性能计算集群,关于创建高性能计算集群。 | - |
实例选择 | 选择需要诊断的目标实例。 说明 若目标实例已经处于正在诊断分析 的流程中,请等待诊断结束后,再选择该实例进行新的诊断。 | - |
批量作业检测安装 | 检查是否已安装批量作业客户端,如果当前实例内未安装批量作业客户端,建议安装批量作业客户端。 | - |
- 完成配置后,单击“创建”按钮,进入诊断流程。
后续步骤
等待诊断结束后,即可查看本次实例诊断结果。若存在建议修复项,请根据修复建议指引完成修复,并重新创建该诊断任务确认异常是否已被修复。关于诊断项汇总。