在 AI 训练模型处理业务用例时，监控训练任务状态和底层资源负载至关重要，直接影响着训练任务的有效性。本文为您提供了 AI 训练常用的监控大盘，并介绍如何将大盘导入到 Grafana 系统中使用。 ## 使用说明下文主要介绍容器服务测试并验证通过的实践内容，为了获得符合预期的结果，同时符合容器服务的 [使用限制](https://www.volcengine.com/docs/6460/79642)，请按照本文方案（或在本文推荐的资源上）操作。如需替换方案，您可以联系对应的火山引擎客户经理咨询。 ## 前提条件 * 集群已开启云原生观测，并同步安装了 node\-exporter 组件。详情请参见 [开启云原生观测](https://www.volcengine.com/docs/6460/1213992)。 :::tip Prometheus\-agent 组件需要升级到 v2.0.5 及以上版本。详情请参见 [升级组件](https://www.volcengine.com/docs/6460/159826)。 ::: * 已安装 rdma\-device\-plugin 组件，详情请参见 [安装组件](https://www.volcengine.com/docs/6460/101014)。 * 已安装 nvidia\-device\-plugin 组件，并同步安装了 dcgm\-exporter。详情请参见 [安装组件](https://www.volcengine.com/docs/6460/101014#.bnZpZGlhLWRldmljZS1wbHVnaW4t57uE5Lu2)。 * 集群绑定的托管 Prometheus 工作区已接入自建 Grafana。其中，Grafana 需要为 v9.0.2 及以上版本。详情请参见 [将托管 Prometheus 数据接入自建 Grafana](https://www.volcengine.com/docs/6731/126068)。 ## 配置 AI 训练任务您可以在集群中使用工作负载部署 AI 训练任务，并使用 GPU 和 RDMA 资源。配置方法请参见 [NVIDIA GPU 调度](https://www.volcengine.com/docs/6460/142476) 和 [VKE 集群中使用 RDMA 资源](https://www.volcengine.com/docs/6460/1125782)。为了能够在大盘中查看到训练任务的相关信息，您需要在训练任务中增加`ai.vke.volcengine.com/task`、`ai.vke.volcengine.com/job`、`ai.vke.volcengine.com/team`和`ai.vke.volcengine.com/user`标签，示例如下。 ```YAML apiVersion: apps/v1 kind: Deployment metadata: name: ai-demo # 训练任务的名称 namespace: default # 训练任务所在的命名空间 spec: replicas: 1 # 训练任务的副本数 selector: matchLabels: app: ai-demo template: metadata: labels: app: ai-demo ai.vke.volcengine.com/task: master # 训练任务的角色，例如 master、chief、worker ai.vke.volcengine.com/job: ai-name # 训练任务的名称 ai.vke.volcengine.com/team: team-a # 训练任务的归属团队 ai.vke.volcengine.com/user: user-a # 训练任务的归属成员 spec: containers: - name: ai # 容器名称 image: doc-cn-beijing.cr.volces.com/vke/gpu-burn:1.0 # 训练任务的镜像和版本 command: [ "/bin/bash", "-c", "--" ] args: [ "while true; do sleep 3600; done;" ] resources: limits: nvidia.com/gpu: "1" # 按需配置 GPU 显卡数量 ``` ## 监控大盘 ### 预置监控大盘您可以在 **云原生观测** \> **监控看板** 中，查看系统预置的 AI 训练任务监控大盘，详情请参见 [AI 资源观测](https://www.volcengine.com/docs/6460/1214011)。 ### 导入监控大盘当需要对集群中运行的 AI 训练任务以及底层资源进行监控时，您可以下载下文中提供的监控大盘，并导入到 Grafana 系统中使用。操作步骤如下： 1. 使用账号和密码登录 Grafana 系统。 2. 在左侧导航栏中，选择 **Dashboards**，进入监控大盘配置页面。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_26010b1553b69d17e713be94ed6302d3.png =966x) 3. 单击 **New** ，在下拉菜单中选择 **import**，进入导入大盘页面。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_04f16df98438773c3a7d705e805149e9.png =963x) 4. 单击 **Upload dashboard JSON file**，并选择保存在本地的监控大盘 json 文件。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_4b22e34776b472b1c300abb6d421d552.png =965x) 5. 配置监控大盘的基本信息。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_6a00248d8611cf338c30114cebb95db1.png =965x) |配置项 |说明 | |---|---| |Name |（可选）根据需要修改监控大盘的名称。 | |Folder |（可选）选择大盘保存的文件夹，不修改则默认保存在 General 文件夹。 | |VMP |选择数据源，您需要在下拉菜单中选择与目标集群绑定的托管 Prometheus 工作区。 | 6. 单击 **import**，完成导入，即可查看监控大盘。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_fca5d70796a3ab13f78911b8a6550a7d.png =964x) ## 监控大盘说明 ### 集群 AI 监控大盘该大盘主要展示了 **集群维度** 的 AI 训练任务信息和资源使用信息。 |信息分类 |说明 | |---|---| |集群训练任务概览 |展示了集群 AI 训练任务信息，包括：AI 训练任务数、GPU Worker 数和训练任务 GPU 利用率。 | |集群 GPU 资源概览 |展示了集群 GPU 资源信息，包括：GPU 总数、已分配 GPU 数、已使用 GPU 数、故障 GPU 数、GPU 节点数等。 | |资源使用详情 |展示了集群资源使用信息，包括：训练任务数、GPU Worker 数、训练任务 GPU 利用率、集群 GPU 使用率、集群 GPU 故障率等。 | ### 节点 GPU 大盘该大盘主要展示了 **节点维度** 的监控信息，包括 GPU 节点监控信息和 GPU 卡监控信息。 |信息分类 |说明 | |---|---| |节点资源使用情况 |展示了 GPU 节点的监控信息，包括：节点 IP、GPU 型号、节点状态、CPU 核数、内存、GPU 数等。 | |节点资源使用详情 |展示了 GPU 卡的监控信息，包括：GPU 利用率、GPU 使用显存、异常的 GPU Xid、GPU 编码器利用率、GPU 时钟频率、GPU 功耗等。 | ### 训练任务大盘(rdma\-device\-plugin) 该大盘展示了 **任务维度** 的 AI 训练任务监控信息和基础资源（GPU、RDMA）监控信息。 :::tip 该大盘的数据来自于 rdma\-device\-plugin 组件，详情请参见 [AI 资源观测](https://www.volcengine.com/docs/6460/1214011)。 ::: |信息分类 |说明 | |---|---| |训练任务概况 |展示了训练任务概况，包括：训练任务、训练任务 Worke、GPU 利用率过低的训练任务、GPU 利用率过低的训练任务 Worker。 | |训练任务 None Worker 列表 |展示了训练任务 None Worker 列表。 | |GPU |展示了 GPU 监控信息，包括：GPU 利用率、异常的 GPU Xid、GPU 使用显存、GPU 温度、GPU 功耗等。 | |RDMA |展示了 RDMA 监控信息，包括：包括入方向流量、出方向流量、入方向包数、出方向包数、入方向 Pause 时长、出方向 Pause 时长等。 | ### 训练任务大盘(node\-exporter) 该大盘展示了 **任务维度** 的 AI 训练任务监控信息和基础资源（GPU、RDMA）监控信息。 :::tip 该大盘的数据来自于 node\-exporter 组件，详情请参见 [node-exporter 官方文档](https://github.com/prometheus/node_exporter/blob/master/collector/infiniband_linux.go)。 ::: |信息分类 |说明 | |---|---| |训练任务概况 |展示了训练任务概况，包括：训练任务、训练任务 Worke、GPU 利用率过低的训练任务、GPU 利用率过低的训练任务 Worker。 | |训练任务 None Worker 列表 |展示了训练任务 None Worker 列表。 | |GPU |展示了 GPU 监控信息，包括：GPU 利用率、异常的 GPU Xid、GPU 使用显存、GPU 温度、GPU 功耗等。 | |RDMA |展示了 RDMA 监控信息，包括：入方向流量、出方向流量、入方向报文、出方向报文、Link Down、Error Recovery 等。 | ### 团队训练任务大盘该大盘展示了 **团队维度** 的 AI 训练任务监控信息。 |信息分类 |说明 | |---|---| |团队训练任务概况 |展示了团队维度的 AI 训练监控信息。包括：团队训练任务数、团队 GPU worker 数、团队训练任务 GPU 利用率、团队训练任务异常 Xid 等。 | |团队成员训练任务概况 |展示了团队成员维度的 AI 训练监控信息。包括：团队成员训练任务数、团队成员 GPU worker 数、团队成员训练任务 GPU 利用率、团队成员训练任务异常 Xid 等。 | |训练任务列表 |展示了团队所有的 AI 训练任务列表。 |