本文汇总了集群诊断功能支持的诊断项、检测项、修复建议等详情。
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
GuestOS.RdmaAgentService | 检测RDMA网络配置器状态。 | 实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达预期等情况。 | RDMA网络配置器未正常执行解决方案 |
GuestOS.Nvidia.DriverStatus | 检测GPU驱动版本。 | 实例内未检测到GPU驱动或驱动无响应,可能导致GPU无法正确使用。 | |
GuestOS.Nvidia.FabricmanagerService | 检测实例上nvidia-fabricmanager.service服务状态。 | 实例内nvidia-fabricmanager.service服务状态异常,GPU将无法正确使用。 | nvidia-fabricmanager.service状态异常解决方案 |
GuestOS.Nvidia.ModStatus | 检测实例上GPU所需内核模块是否加载。 | 实例内GPU所需内核模块未加载,可能导致GPU部分功能无法正确使用、GPU性能下降等。 | NVIDIA所需内核模块未加载解决方案 |
GuestOS.Nvidia.NicConfig | 检测实例中RDMA网卡的片上配置是否正常。 | 实例内RDMA网卡的片上配置错误,可能导致RDMA网卡无法正确使用、RDMA网卡性能下降等。 | 提交工单 |
GuestOS.Nvidia.RailOptimized | 检测实例中RDMA网卡是否进行多轨道组网。 | 实例内RDMA网卡未多轨道组网,可能导致RDMA网络性能下降。 | 提交工单 |
GuestOS.MonitorStatus | 检测实例中火山引擎监控服务是否正常运行。 | 实例内监控服务未安装或状态异常,可能导致实例异常发现不及时。 | 安装插件 |
GuestOS.Nvidia.NvmlStatus | 检测实例中nvidia NVML链接库是否正常。 | 实例内NVIDIA NVML链接库无法正常链接,可能导致实例中GPU异常发现不及时。 | NVML链接库链接异常解决方案 |
GuestOS.Nvidia.OfedStatus | 检测实例中是否正确安装RDMA网卡驱动,是否能正确获取RDMA网卡驱动版本。 | 实例内未检测到RDMA网卡驱动,可能导致RDMA网卡无法正确使用。 | 提交工单 |
GuestOS.Nvidia.Gdr | 检测实例中GPU的GDR性能。 |
| |
GuestOS.Nvidia.RdmaNic | 检测RDMA网卡性能和连通性。 | 实例内RDMA网卡性能偏低或实例内RDMA网卡之间无法连通。 | 提交工单 |
GuestOS.Nvidia.NcclTest | 检测实例中nvidia nccl-tests单机性能是否异常。 | 实例上NVIDIA nccl-tests检测结果性能偏低。 | 提交工单 |
GuestOS.Nvidia.H2dBandwidthTest | 检测实例中GPU与主机间带宽性能是否异常。 | 实例上GPU与主机间带宽性能偏低。 | 提交工单 |
GuestOS.Nvidia.P2PBandwidthTest | 检测实例中GPU与GPU间带宽性能和连通性是否异常。 | 实例上GPU与GPU之间的带宽性能偏低或无法连通。 | 提交工单 |
GuestOS.Nvidia.DcgmTest | 检测NVIDIA DCGM是否全部通过。 | 可能导致其他NVIDIA GPU异常等。 | 提交工单 |
GuestOS.Hpc.ConnectivityTest | 检测集群中RDMA网卡与交换机连通性,以及交换机的连通性。 | 实例中存在未与集群连通的RDMA网卡。 | 提交工单 |