You need to enable JavaScript to run this app.
导航
查看实例GPU/RDMA监控数据
最近更新时间:2024.08.22 14:41:07首次发布时间:2023.08.01 10:44:24

针对GPU云服务器,火山引擎为您提供了其特有的GPU监控及RDMA监控,可帮助您快速了解实例显卡、RDMA网络信息。

使用说明

  • 暂仅支持GPU云服务器使用,规格详情可查看异构计算
  • 您还可根据创建告警策略指引,配置GPU卡、RDMA卡指标数据异常告警。

    说明

    • “告警对象”请选择“弹性计算 > 云服务器”。
    • “维度”请选择“GPU卡”或“RDMA卡”。

操作步骤

  1. 登录云服务器控制台
  2. 在顶部导航栏选择目标实例所属的项目和地域。
  3. 在左侧导航树,选择“实例与镜像 > 实例”,进入实例列表页。
  4. 单击目标实例名称,进入该实例的详情页面。
  5. 选择“监控”页签,您可以在“GPU监控”、“RDMA监控”两个数据页签查看实例数据。
    • GPU监控
      您可以在本页面查看显存使用量、GPU使用率、GPU温度等指标信息。

      说明

      仅显卡类型为A100/A800且显卡数量≥2的规格实例,可查看“NVLINK出/入方向总带宽”指标。

    • RDMA监控
      您可以在本页面查看“RDMA网络流入/流出速率”、“接收/发送的RDMA数据包数量”、“RDMA网络出/入方向暂停包数量”等指标信息。

      说明

      仅高性能计算GPU型及显卡类型为A100/A800的规格实例,可查看“RDMA网络发送/接收包数量”、“RDMA网络出/入方向暂停包数量”、“RDMA网络出/入方向流量暂停时间”指标。

相关步骤

您还可以为GPU监控和RDMA监控创建告警策略,以便及时获取实例异常状态,确保其正常运行。