集群诊断是一种面向高性能计算集群(High Performance Compute Cluster,HPC集群)的问题诊断工具,提供对高性能计算GPU型实例的系统状态、硬件健康状态、应用程序、性能、网络等状态等进行全面诊断,协助您及时发现并了解实例的常见问题,确保实例正常运行。
您可以在以下场景中使用集群诊断功能了解实例的健康状态。
场景 | 说明 |
---|---|
定位并解决实例已知问题 | 在实例使用过程中遇到问题,需要进行针对性的问题诊断以寻求修复方法,例如网络无法正常使用。 |
定期全面检查实例健康状态 | 在日常运维中,全面了解实例整体的健康情况,以便及时发现并处理异常情况,避免影响业务。 |
暂仅支持完成企业实名认证账号使用本功能,且该功能正在邀测中,如需试用,请联系客户经理申请。
说明
关于企业认证和个人认证升级为企业认证。
暂仅支持运行中状态的Linux操作系统实例使用本功能。
待诊断实例必须安装批量作业客户端。
诊断完成后,诊断报告中将按照异常类型分类展示各检测项。
类型 | 说明 |
---|---|
建议 | 该分类下的检测项存在轻微异常或非紧急信息,不直接影响云服务器稳定运行或者性能,但可能预示着未来潜在的问题。 |
警告 | 该分类下的检测项可能会导致服务可用性下降、性能降低或资源消耗过快等问题,不直接影响云服务器稳定运行或者性能,但可能预示着未来潜在的问题。 |
严重 | 该分类下的检测项会威胁到云服务器的稳定运行和数据完整性,或已经导致实例中的服务中断、无法访问等情况。 |