You need to enable JavaScript to run this app.
导航
诊断实例健康状态
最近更新时间:2024.10.18 17:12:43首次发布时间:2024.04.03 15:47:01

本文介绍如何诊断云服务器实例健康状态,并查看历史诊断报告。

诊断实例问题

您可以在实例诊断页面发起诊断请求。

  1. 登录实例控制台

  2. 在左侧导航栏选择“运维与监控 > 实例诊断”。

  3. 在顶部导航栏选择目标实例所在项目与地域。

  4. 单击“实例诊断”按钮,进入实例诊断配置页面

  5. 在实例诊断页面,配置如下信息。

    参数说明取值样例

    当前问题

    选择实例使用过程中遇上的问题。取值:

    • 实例性能问题:指实例的CPU、内存、硬盘等使用率较高。
    • 实例无法登陆场景:指运行中的实例无法远程访问或实例启动异常。
    • 实例设备检测:指实例GPU健康、高性能计算集群连通性等设备检测,主要用于对GPU故障或性能指标不达预期进行定位。
      • GPU设备健康检查:为实例级别检测,支持对所有GPU计算型实例进行检测,包括检测GPU实例单机内的设备健康(驱动配置、GPU卡和网卡配置是否正常等)、NCCL Test、机内带宽等。
      • 高性能计算集群连通性检查:为集群级别检测,支持对所有高性能计算GPU型实例进行检测,包括检测集群中RDMA网卡和交换机的连通性,以及所选实例是否在同一个高性能计算集群、同一个VPC网络中。

      说明

      该检测对实例上运行的业务有损,可能导致业务中断,检测前,请确认实例的业务状态,并选择合适的时间进行检测,例如在业务空闲时进行检测。

    实例性能问题

    排查日期

    指定诊断的开始、结束日期。

    说明

    • “实例设备检测”问题不支持设置排查日期,默认以实例诊断请求提交时间为准。

    • 除“实例设备检测”外,其他问题支持选择7天内实例运行历史进行诊断,且诊断周期最长不能超过12小时。 假设当前日期为2024年03月12日,您可以选择2024年03月06日到当前日期内,不超过12小时的周期进行诊断。例如:

      • 2024-03-06 00:00 - 2024-03-06 12:00

      • 2024-03-07 00:00 - 2024-03-07 08:00

      • 2024-03-09 23:00 - 2024-03-10 09:00

    2024-03-06 00:00 - 2024-03-06 12:00

    实例选择

    选择需要诊断的目标实例

    • 单个诊断:当前所有问题均支持单个诊断,即一次只能选择一个目标实例进行诊断。
    • 批量诊断:暂仅“实例设备检测”问题支持批量诊断,即一次可以选择多台目标实例进行诊断。

    注意

    若目标实例已经处于正在诊断分析 的流程中,请等待诊断结束后,再选择该实例进行新的诊断。

    -

    批量作业检测安装

    检查是否已安装批量作业客户端,如果当前实例内未安装批量作业客户端,建议安装批量作业客户端

    说明

    • 实例性能问题实例无法登陆场景未安装批量作业,部分诊断项无法检测。
    • 实例设备检测未安装批量作业,则无法进行实例设备检测。

    -

  6. 完成配置后,单击“开始诊断”按钮,进入诊断流程。

    说明

    若为“实例设备检测”问题的诊断,开始诊断时,将会在实例内自动安装相关包和依赖。镜像内的环境比较复杂,有安装失败的风险,未安装成功会导致相关检测项诊断失败,请考虑是否进行诊断;若导致诊断失败,请提交工单,获取技术支持。

  7. 等待诊断结束后,即可查看本次实例诊断结果。

    • 建议修复
      若存在建议修复的项,请根据修复建议指引完成修复,并单击“重新诊断”按钮,再次进行诊断,确认异常是否已被修复。

    • 诊断分析下载
      诊断分析包含本次诊断的详细数据,例如GDR性能实际值和GDR性能预期值等性能数据。
      单击“诊断分析下载”按钮,即可将本次检测的诊断分析报告以txt文件格式下载到本地,名称为“dr-$文件自动生成的编号$-detail”。

      说明

      暂仅实例设备检测中的“GPU设备健康检查”问题支持下载诊断分析报告,且仅支持下载最近7天的诊断报告。

      alt

查看历史诊断报告

当您已经对实例完成诊断后,您可以在实例诊断页面查看历史诊断报告。

说明

在实例诊断页面,支持您在查看所有实例的历史诊断报告。

  1. 登录实例控制台

  2. 在左侧导航栏选择“运维与监控 > 实例诊断”。

  3. 在顶部导航栏选择目标实例所在项目与地域。

  4. 在页面右上角单击“返回首页”按钮,进入实例诊断首页。

  5. 单击“诊断历史”按钮,进入实例诊断历史页面。

  6. 在实例诊断历史页面,可通过实例ID或报告ID搜索查找目标报告。

  7. 单击目标报告右侧“操作”列的“查看报告”按钮,查看报告详情。

  8. 若您已经完成修复,可单击目标报告右侧“重新诊断”按钮,再次进行诊断,确认异常是否已被修复。