You need to enable JavaScript to run this app.
导航
集群诊断概述
最近更新时间:2024.10.24 10:59:54首次发布时间:2024.10.24 10:59:54

集群诊断是一种面向高性能计算集群(High Performance Compute Cluster,HPC集群)的问题诊断工具,提供对高性能计算GPU型实例的系统状态、硬件健康状态、应用程序、性能、网络等状态等进行全面诊断,协助您及时发现并了解实例的常见问题,确保实例正常运行。

推荐场景

您可以在以下场景中使用集群诊断功能了解实例的健康状态。

场景说明
定位并解决实例已知问题在实例使用过程中遇到问题,需要进行针对性的问题诊断以寻求修复方法,例如网络无法正常使用。
定期全面检查实例健康状态在日常运维中,全面了解实例整体的健康情况,以便及时发现并处理异常情况,避免影响业务。

使用限制

  • 暂仅支持完成企业实名认证的火山引擎账号使用本功能。

  • 暂仅支持在华北2(北京)、华东2(上海)地域使用本功能。

    如需在其他地域试用,请联系客户经理申请。更多地域详情可查看地域和可用区

  • 暂仅支持运行中状态的Linux操作系统实例使用本功能。

  • 待诊断实例必须安装批量作业客户端

异常类型

诊断完成后,诊断报告中将按照异常类型分类展示各检测项。

类型说明
建议该分类下的检测项存在轻微异常或非紧急信息,不直接影响云服务器稳定运行或者性能,但可能预示着未来潜在的问题。
警告该分类下的检测项可能会导致服务可用性下降、性能降低或资源消耗过快等问题,不直接影响云服务器稳定运行或者性能,但可能预示着未来潜在的问题。
严重该分类下的检测项会威胁到云服务器的稳定运行和数据完整性,或已经导致实例中的服务中断、无法访问等情况。