NVIDIA DCGM 是用于管理和监控基于 Linux 系统的 NVIDIA GPU 大规模集群的一体化工具。本文介绍 DCGM 常见的查询指标。
利用率
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_GPU_UTIL | Gauge | % | GPU 利用率。 |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % | GPU 内存带宽利用率。 |
DCGM_FI_DEV_ENC_UTIL | Gauge | % | GPU 编码器利用率。 |
DCGM_FI_DEV_DEC_UTIL | Gauge | % | GPU 解码器利用率。 |
内存
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_FB_FREE | Gauge | MiB | GPU 帧缓存剩余量。 |
DCGM_FI_DEV_FB_USED | Gauge | MiB | GPU 帧缓存使用量。 |
说明
在 GPU 里,显卡内存(显存)也被称为帧缓存。
频率
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | GPU SM 时钟频率。 |
DCGM_FI_DEV_MEM_CLOCK | Gauge | MHz | GPU 内存时钟频率。 |
剖析
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_PROF_GR_ENGINE_ACTIVE | Gauge | % | 在一个时间间隔内,Graphics 或 Compute 引擎处于 Active 的时间占比。 |
DCGM_FI_PROF_SM_ACTIVE | Gauge | % | 在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active 的时间占比。 该值统计的是所有 SM 的均值。 |
DCGM_FI_PROF_SM_OCCUPANCY | Gauge | % | 在一个时间间隔内,驻留在 SM 上的线程束与该 SM 最大可驻留线程束的比例。 该值统计的是所有 SM 的均值。 |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | % | 单位时间内 Tensor Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_DRAM_ACTIVE | Gauge | % | 内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)。 |
DCGM_FI_PROF_PIPE_FP64_ACTIVE | Gauge | % | 单位时间内 F64 Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_PIPE_FP32_ACTIVE | Gauge | % | 单位时间内 F32 Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_PIPE_FP16_ACTIVE | Gauge | % | 单位时间内 F16 Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_NVLINK_RX_BYTES | Counter | B/s | 通过 NVLink 接收的数据流量。 |
DCGM_FI_PROF_NVLINK_TX_BYTES | Counter | B/s | 通过 NVLink 传输的数据流量。 |
DCGM_FI_PROF_PCIE_RX_BYTES | Counter | B/s | 通过 PCIe 总线接收字节数。 |
DCGM_FI_PROF_PCIE_TX_BYTES | Counter | B/s | 通过 PCIe 总线传输字节数。 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | Counter | 次 | GPU PCIe 总线的重试次数。 |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | Counter | - | GPU 所有通道的 NVLink 带宽计数器总数。 |
温度和功率
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_GPU_TEMP | Gauge | ℃ | GPU 当前温度。 |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | ℃ | GPU 显存当前温度。 |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | GPU 当前使用功率。 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | mJ | GPU 启动以来的总能耗。 |
XID 错误&违规
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_XID_ERRORS | Gauge | - | 最近发生的错误代码。 |
DCGM_CUSTOM_XID_ERRORS_TOTAL_COUNTER | Counter | - | 发生错误代码总数。 |
DCGM_FI_DEV_POWER_VIOLATION | Counter | μs | 因功率上限而导致违规的累积持续时间。 |
DCGM_FI_DEV_THERMAL_VIOLATION | Counter | μs | 因热限制导致违规的累积持续时间。 |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Counter | μs | 因同步提升限制而导致违规的累积持续时间。 |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Counter | μs | 因电路板限制而导致违规的累积持续时间。 |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Counter | μs | 因低利用率限制导致违规的累积持续时间。 |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Counter | μs | 因电路板可靠性限制导致违规的累积持续时间。 |
停用的内存页面
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_RETIRED_SBE | Counter | 个 | 因单 bit 错误而停用的内存页面。 |
DCGM_FI_DEV_RETIRED_DBE | Counter | 个 | 因双 bit 错误而停用的内存页面。 |
其他
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|
DCGM_FI_DEV_VGPU_LICENSE_STATUS | Gauge | - | vGPU 许可证状态。 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS | Counter | - | 因无法纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS | Counter | - | 因可纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_ROW_REMAP_FAILURE | Gauge | - | 重新映射行是否失败。 |