针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。
说明
GPU监控
您可以在本页面查看显存使用量、GPU使用率、GPU温度等指标信息。
说明
仅显卡类型为A100/A800且显卡数量≥2的规格实例,可查看“NVLINK出/入方向总带宽”指标。
RDMA监控
您可以在本页面查看“RDMA网络流入/流出速率”、“接收/发送的RDMA数据包数量”、“RDMA网络出/入方向暂停包数量”等指标信息。
说明
仅高性能计算GPU型及显卡类型为A100/A800的规格实例,可查看“RDMA网络发送/接收包数量”、“RDMA网络出/入方向暂停包数量”、“RDMA网络出/入方向流量暂停时间”指标。
您还可以为GPU监控和RDMA监控创建告警策略,以便及时获取实例异常状态,确保其正常运行。