You need to enable JavaScript to run this app.
导航
AI 训练任务监控
最近更新时间:2024.06.06 14:47:48首次发布时间:2023.09.12 20:17:28

在 AI 训练模型处理业务用例时,监控训练任务状态和底层资源负载至关重要,直接影响着训练任务的有效性。本文为您提供了 AI 训练常用的监控大盘,并介绍如何将大盘导入到 Grafana 系统中使用。

前提条件

  • 集群已开启云原生观测,并同步安装了 node-exporter 组件。详情请参见 开启云原生观测

说明

Prometheus-agent 组件需要升级到 v2.0.5 及以上版本。详情请参见 升级组件

  • 已安装 rdma-device-plugin 组件,详情请参见 安装组件
  • 已安装 nvidia-device-plugin 组件,并同步安装了 dcgm-exporter。详情请参见 安装组件
  • 集群绑定的托管 Prometheus 工作区已接入自建 Grafana。其中,Grafana 需要为 v9.0.2 及以上版本。详情请参见 将托管 Prometheus 数据接入自建 Grafana

配置 AI 训练任务

您可以在集群中使用工作负载部署 AI 训练任务,并使用 GPU 和 RDMA 资源。配置方法请参见 NVIDIA GPU 调度VKE 集群中使用 RDMA 资源

为了能够在大盘中查看到训练任务的相关信息,您需要在训练任务中增加ai.vke.volcengine.com/taskai.vke.volcengine.com/jobai.vke.volcengine.com/teamai.vke.volcengine.com/user标签,示例如下。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ai-demo # 训练任务的名称
  namespace: default # 训练任务所在的命名空间
spec: 
  replicas: 1 # 训练任务的副本数
  selector: 
    matchLabels: 
      app: ai-demo
  template: 
    metadata: 
      labels: 
        app: ai-demo
        ai.vke.volcengine.com/task: master # 训练任务的角色,例如 master、chief、worker
        ai.vke.volcengine.com/job: ai-name # 训练任务的名称
        ai.vke.volcengine.com/team: team-a # 训练任务的归属团队
        ai.vke.volcengine.com/user: user-a # 训练任务的归属成员
    spec:
      containers:
      - name: ai # 容器名称
        image: cr-cn-beijing.volces.com/demo-namespace/demo-repo:v1 # 训练任务的镜像和版本

导入监控大盘

当需要对集群中运行的 AI 训练任务以及底层资源进行监控时,您可以下载下文中提供的监控大盘,并导入到 Grafana 系统中使用。操作步骤如下:

  1. 使用账号和密码登录 Grafana 系统。
  2. 在左侧导航栏中,选择 Dashboards,进入监控大盘配置页面。
    alt
  3. 单击 New ,在下拉菜单中选择 import,进入导入大盘页面。
    alt
  4. 单击 Upload dashboard JSON file,并选择保存在本地的监控大盘 json 文件。
    alt
  5. 配置监控大盘的基本信息。
    alt
    配置项说明
    Name(可选)根据需要修改监控大盘的名称。
    Folder(可选)选择大盘保存的文件夹,不修改则默认保存在 General 文件夹。
    VMP选择数据源,您需要在下拉菜单中选择与目标集群绑定的托管 Prometheus 工作区。
  6. 单击 import,完成导入,即可查看监控大盘。
    alt

监控大盘说明

集群 AI 监控大盘

该大盘主要展示了 集群维度 的 AI 训练任务信息和资源使用信息。

信息分类说明
集群训练任务概览展示了集群 AI 训练任务信息,包括:AI 训练任务数、GPU Worker 数和训练任务 GPU 利用率。
集群 GPU 资源概览展示了集群 GPU 资源信息,包括:GPU 总数、已分配 GPU 数、已使用 GPU 数、故障 GPU 数、GPU 节点数等。
资源使用详情展示了集群资源使用信息,包括:训练任务数、GPU Worker 数、训练任务 GPU 利用率、集群 GPU 使用率、集群 GPU 故障率等。
集群 AI 监控大盘-20230912.json
55.74KB

节点 GPU 大盘

该大盘主要展示了 节点维度 的监控信息,包括 GPU 节点监控信息和 GPU 卡监控信息。

信息分类说明
节点资源使用情况展示了 GPU 节点的监控信息,包括:节点 IP、GPU 型号、节点状态、CPU 核数、内存、GPU 数等。
节点资源使用详情展示了 GPU 卡的监控信息,包括:GPU 利用率、GPU 使用显存、异常的 GPU Xid、GPU 编码器利用率、GPU 时钟频率、GPU 功耗等。
节点 GPU 大盘-20230912.json
49.49KB

训练任务大盘(rdma-device-plugin)

该大盘展示了 任务维度 的 AI 训练任务监控信息和基础资源(GPU、RDMA)监控信息。

说明

该大盘的数据来自于 rdma-device-plugin 组件,详情请参见 AI 资源观测

信息分类说明
训练任务概况展示了训练任务概况,包括:训练任务、训练任务 Worke、GPU 利用率过低的训练任务、GPU 利用率过低的训练任务 Worker。
训练任务 None Worker 列表展示了训练任务 None Worker 列表。
GPU展示了 GPU 监控信息,包括:GPU 利用率、异常的 GPU Xid、GPU 使用显存、GPU 温度、GPU 功耗等。
RDMA展示了 RDMA 监控信息,包括:包括入方向流量、出方向流量、入方向包数、出方向包数、入方向 Pause 时长、出方向 Pause 时长等。
训练任务大盘(rdma-device-plugin)-20230920.json
91.68KB

训练任务大盘(node-exporter)

该大盘展示了 任务维度 的 AI 训练任务监控信息和基础资源(GPU、RDMA)监控信息。

说明

该大盘的数据来自于 node-exporter 组件,详情请参见 node-exporter 官方文档

信息分类说明
训练任务概况展示了训练任务概况,包括:训练任务、训练任务 Worke、GPU 利用率过低的训练任务、GPU 利用率过低的训练任务 Worker。
训练任务 None Worker 列表展示了训练任务 None Worker 列表。
GPU展示了 GPU 监控信息,包括:GPU 利用率、异常的 GPU Xid、GPU 使用显存、GPU 温度、GPU 功耗等。
RDMA展示了 RDMA 监控信息,包括:入方向流量、出方向流量、入方向报文、出方向报文、Link Down、Error Recovery 等。
训练任务大盘(node-exporter)-20230912.json
74.17KB

团队训练任务大盘

该大盘展示了 团队维度 的 AI 训练任务监控信息。

信息分类说明
团队训练任务概况展示了团队维度的 AI 训练监控信息。包括:团队训练任务数、团队 GPU worker 数、团队训练任务 GPU 利用率、团队训练任务异常 Xid 等。
团队成员训练任务概况展示了团队成员维度的 AI 训练监控信息。包括:团队成员训练任务数、团队成员 GPU worker 数、团队成员训练任务 GPU 利用率、团队成员训练任务异常 Xid 等。
训练任务列表展示了团队所有的 AI 训练任务列表。
团队训练任务大盘-20230912.json
51.89KB