在使用高性能计算GPU型实例进行多机训练时,用户希望能对RDMA性能进行实时监控,并根据相关指标判断网络状态。
本次高性能计算GPU型实例监控新增RDMA相关6个指标,您可以直接通过云监控服务实时监控RDMA网络接收/发送包数量、RDMA网络入/出方向暂停包数量和RDMA网络入/出方向流量暂停时间,如果发现业务运行速度变慢可参考此指标分析是否存在网络拥塞。
说明:此指标和模型算法、网络配置等多种因素有关,建议仅作为观测指标辅助业务分析,不作为网络拥塞或故障的绝对判断依据。
可以参考以下内容查看高性能计算GPU型实例的监控指标:
发布地域:全部地域。