mGPU 是火山引擎基于内核虚拟化隔离 GPU 并结合自研调度框架提供的容器共享 GPU 方案。本文介绍 mGPU 方案中的常见查询指标。
指标名称 | 含义 |
---|---|
nvml_pod_core_request | Pod 的 mGPU 算力请求量(单位:%) |
nvml_pod_core_usage | Pod 的 mGPU 算力使用量(单位:%) |
nvml_pod_mem_request | Pod 的 mGPU 显存请求量(单位:MiB) |
nvml_pod_mem_usage | Pod 的 mGPU 显存使用量(单位:MiB) |
nvml_pod_mem_utilization | Pod 的 mGPU 显存利用率(单位:%) |
nvml_container_core_request | 容器的 mGPU 算力请求量(单位:%) |
nvml_container_core_usage | 容器的 mGPU 算力使用量(单位:%) |
nvml_container_mem_request | 容器的 mGPU 显存请求量(单位:MiB) |
nvml_container_mem_usage | 容器的 mGPU 显存使用量(单位:MiB) |
nvml_container_mem_utilization | 容器的 mGPU 显存利用率(单位:%) |