支持开启新版本指标采集。新版本指标和老版本指标可以单独开启和关闭,互不干扰。
新版本指标在 VMP 侧会计为 “云产品免费指标”,不再收费(老版本依然收费)。
新版本指标包含老版原有的容器资源指标和 GPU 资源(DCGM)指标。
平台 DCGM 指标版本从 2.2.9 升级至 3.1.8,修复了包括 DCGM_FI_PROF_SM_ACTIVE 异常归零等问题,以及支持了少量新指标。
新版本指标采用新的标签规范,调整了一些标签的定义和位置。现在大部分元数据可以在 mlp_{{ resource }}_info
系列指标上查到。
支持开启新版本指标采集
配置入口在【全局配置】>【监控】>【授权】。
新旧版本可以分别开启或关闭,互不干扰。
旧版本指标不再有功能迭代,后续会逐步下线,请合理安排迁移时间。
新版本指标在 VMP 侧会计为 “云产品免费指标”,不再收费(老版本依然收费)。
GPU 资源(DCGM)指标变化
变更把 DCGM 版本从原来的 2.2.9 升级至 3.1.8。新版本完整优化和修复可以参考 Nvidia 的 release note(https://docs.nvidia.com/datacenter/dcgm/latest/release-notes/changelog.html)。注意该变更的影响范围是全平台,新老版本指标均适用。
表达 GPU 综合负载的关键指标 DCGM_FI_PROF_SM_ACTIVE 无规律归 0 问题,新版本得到修复
DCGM_FI_PROF_PIPE_FP32_ACTIVE 指标在老版本上同时统计 FP32 和 INT 两种负载,新版本按照预期只统计 FP32 负载。
新增 DCGM_FI_PROF_SM_OCCUPANCY 指标,表达在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。统计的是所有 SM 的均值,
新增其他指标若干。后续版本中,重要的新指标均会在告警模板中推荐告警配置。
指标标签规范化
新增一系列 info 指标
mlp_customtask_info
mlp_customtask_instance_info
mlp_service_info
mlp_deployment_info
mlp_deployment_instance_info
mlp_devinstance_info
实例维度指标的标签大规模删减,新版本只保留 namespace
和 pod
,删减掉的元数据可以在上述 info 类指标上找到。查询时,可以基于 namespace
和 pod
label,联合数据指标和 info 指标查询,例如
# 查询某个队列下的所有实例的内存用量 container_memory_working_set_bytes AND ON (namespace, pod) mlp_customtask_instance_info{mlp_resource_queue="q-20240101000000-a1b2c"}
新版本指标预期会支持 VMP 预置告警模板
更多指标会在新版本上逐步放出