You need to enable JavaScript to run this app.
导航
创建诊断任务
最近更新时间:2024.10.24 10:59:54首次发布时间:2024.10.24 10:59:54

本文介绍如何诊断高性能计算GPU型云服务器实例健康状态,便于您对其故障或性能指标不达预期进行定位。

使用限制

  • 暂仅支持运行中状态的Linux操作系统实例使用本功能。
  • 待诊断实例必须安装批量作业客户端
  • 若当前实例有正在进行的诊断任务,则需等待当前诊断完成后再发起下一次诊断。

操作说明

若为首次使用集群诊断服务,您需要单击“立即创建”按钮触发角色请求,即为您的账号授权一个拥有云服务器资源读写授信的角色,高性能计算集群将扮演该角色访问您诊断任务涉及的云资源。
alt

说明

  • 单击“立即创建”按钮后,系统将会自动完成授权。
  • 跨服务访问属于IAM角色实现,该角色将您的云资源权限授予当前云服务,当前服务将通过角色扮演来访问其他云服务资源。关于访问控制

操作步骤

注意

  • 该检测对实例上运行的业务有损,可能导致业务中断,检测前,请确认实例的业务状态,并选择合适的时间进行检测,例如在业务空闲时进行检测。
  • 诊断前将在实例内自动安装相关包和依赖,自定义镜像环境中,相关包和依赖有安装失败的风险,未安装成功会导致相关检测项诊断失败。
  1. 登录实例控制台
  2. 在左侧导航栏选择“实例与镜像 > 高性能计算集群”。
  3. 在顶部导航栏选择目标实例所在项目与地域。
  4. 单击“集群诊断”页签。
  5. 单击“创建诊断”按钮,配置如下信息。
    参数说明取值样例

    诊断项选择

    选择当前待诊断项,支持:

    • 单机诊断
      诊断GPU设备健康状态,为实例级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测GPU实例单机内的设备健康(驱动配置、GPU卡和网卡配置是否正常等)、NCCL Test、机内带宽等。关于诊断项汇总
    • 集群诊断
      诊断高性能计算集群连通性问题,为集群级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测集群中RDMA网卡和交换机的连通性,以及所选实例是否在同一个高性能计算集群、同一个VPC网络中。关于诊断项汇总

    单机诊断/GPU设备健康检查

    高性能计算集群选择待诊断实例的高性能计算集群,关于创建高性能计算集群-

    实例选择

    选择需要诊断的目标实例。

    说明

    若目标实例已经处于正在诊断分析 的流程中,请等待诊断结束后,再选择该实例进行新的诊断。

    -

    批量作业检测安装

    检查是否已安装批量作业客户端,如果当前实例内未安装批量作业客户端,建议安装批量作业客户端

    说明

    若未安装批量作业,则无法进行实例诊断。

    -

  6. 完成配置后,单击“创建”按钮,进入诊断流程。
    alt

后续步骤

等待诊断结束后,即可查看本次实例诊断结果。若存在建议修复项,请根据修复建议指引完成修复,并重新创建该诊断任务确认异常是否已被修复。关于诊断项汇总