有关 MLP 基础指标升级变更说明--机器学习平台-火山引擎

文档中心

立即注册

导航

有关 MLP 基础指标升级变更说明

最近更新时间：2024.01.30 16:02:12首次发布时间：2024.01.30 16:02:12

升级概要

支持开启新版本指标采集。新版本指标和老版本指标可以单独开启和关闭，互不干扰。
新版本指标在 VMP 侧会计为 “云产品免费指标”，不再收费（老版本依然收费）。
新版本指标包含老版原有的容器资源指标和 GPU 资源（DCGM）指标。
平台 DCGM 指标版本从 2.2.9 升级至 3.1.8，修复了包括 DCGM_FI_PROF_SM_ACTIVE 异常归零等问题，以及支持了少量新指标。
新版本指标采用新的标签规范，调整了一些标签的定义和位置。现在大部分元数据可以在 mlp_{{ resource }}_info 系列指标上查到。

变化细节

支持开启新版本指标采集
- 配置入口在【全局配置】>【监控】>【授权】。
- 新旧版本可以分别开启或关闭，互不干扰。
- 旧版本指标不再有功能迭代，后续会逐步下线，请合理安排迁移时间。
新版本指标在 VMP 侧会计为 “云产品免费指标”，不再收费（老版本依然收费）。
GPU 资源（DCGM）指标变化
- 变更把 DCGM 版本从原来的 2.2.9 升级至 3.1.8。新版本完整优化和修复可以参考 Nvidia 的 release note（https://docs.nvidia.com/datacenter/dcgm/latest/release-notes/changelog.html）。注意该变更的影响范围是全平台，新老版本指标均适用。
- 表达 GPU 综合负载的关键指标 DCGM_FI_PROF_SM_ACTIVE 无规律归 0 问题，新版本得到修复
- DCGM_FI_PROF_PIPE_FP32_ACTIVE 指标在老版本上同时统计 FP32 和 INT 两种负载，新版本按照预期只统计 FP32 负载。
  - 从 DCGM_FI_PROF_PIPE_FP32_ACTIVE 中移除的 INT 负载由 DCGM_FI_PROF_PIPE_INT_ACTIVE 表达，该指标仅在 H100 和更新的机型上支持，平台售卖的机型暂不支持。
- 新增 DCGM_FI_PROF_SM_OCCUPANCY 指标，表达在一个时间间隔内，驻留在SM上的线程束与该SM最大可驻留线程束的比例。统计的是所有 SM 的均值，
- 新增其他指标若干。后续版本中，重要的新指标均会在告警模板中推荐告警配置。
指标标签规范化
- 新增一系列 info 指标
  - mlp_customtask_info
  - mlp_customtask_instance_info
  - mlp_service_info
  - mlp_deployment_info
  - mlp_deployment_instance_info
  - mlp_devinstance_info
- 实例维度指标的标签大规模删减，新版本只保留 namespace 和 pod，删减掉的元数据可以在上述 info 类指标上找到。查询时，可以基于 namespace 和 pod label，联合数据指标和 info 指标查询，例如
```
# 查询某个队列下的所有实例的内存用量
container_memory_working_set_bytes
  AND ON (namespace, pod)
  mlp_customtask_instance_info{mlp_resource_queue="q-20240101000000-a1b2c"}
```

后续规划

新版本指标预期会支持 VMP 预置告警模板
更多指标会在新版本上逐步放出