You need to enable JavaScript to run this app.
导航
诊断项汇总
最近更新时间:2024.10.24 10:59:54首次发布时间:2024.10.24 10:59:54

本文汇总了集群诊断功能支持的诊断项、检测项、修复建议等详情。

诊断指标ID
诊断项说明
影响
修复建议
GuestOS.RdmaAgentService检测RDMA网络配置器状态。实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达预期等情况。RDMA网络配置器未正常执行解决方案

GuestOS.Nvidia.DriverStatus

检测GPU驱动版本。

实例内未检测到GPU驱动或驱动无响应,可能导致GPU无法正确使用。

安装GPU驱动

GuestOS.Nvidia.FabricmanagerService检测实例上nvidia-fabricmanager.service服务状态。实例内nvidia-fabricmanager.service服务状态异常,GPU将无法正确使用。nvidia-fabricmanager.service状态异常解决方案
GuestOS.Nvidia.ModStatus检测实例上GPU所需内核模块是否加载。实例内GPU所需内核模块未加载,可能导致GPU部分功能无法正确使用、GPU性能下降等。NVIDIA所需内核模块未加载解决方案
GuestOS.Nvidia.NicConfig检测实例中RDMA网卡的片上配置是否正常。实例内RDMA网卡的片上配置错误,可能导致RDMA网卡无法正确使用、RDMA网卡性能下降等。提交工单
GuestOS.Nvidia.RailOptimized检测实例中RDMA网卡是否进行多轨道组网。实例内RDMA网卡未多轨道组网,可能导致RDMA网络性能下降。提交工单
GuestOS.MonitorStatus检测实例中火山引擎监控服务是否正常运行。实例内监控服务未安装或状态异常,可能导致实例异常发现不及时。安装插件
GuestOS.Nvidia.NvmlStatus检测实例中nvidia NVML链接库是否正常。实例内NVIDIA NVML链接库无法正常链接,可能导致实例中GPU异常发现不及时。NVML链接库链接异常解决方案
GuestOS.Nvidia.OfedStatus检测实例中是否正确安装RDMA网卡驱动,是否能正确获取RDMA网卡驱动版本。实例内未检测到RDMA网卡驱动,可能导致RDMA网卡无法正确使用。提交工单

GuestOS.Nvidia.Gdr

检测实例中GPU的GDR性能。

  • 若性能异常,可能导致实例内RDMA网卡到GPU之间GDR性能偏低。

  • 若性能测试无法启动,可能导致实例内RDMA网卡与GPU之间无法建立GDR连接。

提交工单

GuestOS.Nvidia.RdmaNic检测RDMA网卡性能和连通性。实例内RDMA网卡性能偏低或实例内RDMA网卡之间无法连通。提交工单
GuestOS.Nvidia.NcclTest检测实例中nvidia nccl-tests单机性能是否异常。实例上NVIDIA nccl-tests检测结果性能偏低。提交工单
GuestOS.Nvidia.H2dBandwidthTest检测实例中GPU与主机间带宽性能是否异常。实例上GPU与主机间带宽性能偏低。提交工单
GuestOS.Nvidia.P2PBandwidthTest检测实例中GPU与GPU间带宽性能和连通性是否异常。实例上GPU与GPU之间的带宽性能偏低或无法连通。提交工单
GuestOS.Nvidia.DcgmTest检测NVIDIA DCGM是否全部通过。可能导致其他NVIDIA GPU异常等。提交工单
GuestOS.Hpc.ConnectivityTest检测集群中RDMA网卡与交换机连通性,以及交换机的连通性。实例中存在未与集群连通的RDMA网卡。提交工单