本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。
VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标。
VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标:
curl http://<pod-ip>:1025/metrics
其中变量<pod-ip>
替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示:
curl http://10.16.**.**:1025/metrics
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | GPU 流式多处理器时钟频率。 |
DCGM_FI_DEV_MEM_CLOCK | Gauge | MHz | GPU 内存时钟频率。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_FB_FREE | Gauge | MiB | GPU 帧缓存剩余量。 |
DCGM_FI_DEV_FB_USED | Gauge | MiB | GPU 帧缓存使用量。 |
说明
在 GPU 里,显卡内存(显存)也被称为帧缓存。
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_GPU_TEMP | Gauge | ℃ | GPU 当前温度。 |
DCGM_FI_DEV_MEMORY_TEMP | Gauge | ℃ | GPU 显存当前温度。 |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | GPU 当前使用功率。 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | mJ | 从上一次加载驱动以来 GPU 的总能耗。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_GPU_UTIL | Gauge | % | GPU 利用率。 |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % | GPU 内存带宽利用率。 |
DCGM_FI_DEV_ENC_UTIL | Gauge | % | GPU 编码器利用率。 |
DCGM_FI_DEV_DEC_UTIL | Gauge | % | GPU 解码器利用率。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_XID_ERRORS | Gauge | - | 最后发生的 XID 错误号。 |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Counter | μs | 因电路板限制导致违规的累积持续时间。 |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Counter | μs | 因低利用率限制导致违规的累积持续时间。 |
DCGM_FI_DEV_POWER_VIOLATION | Counter | μs | 因功率上限导致违规的累积持续时间。 |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Counter | μs | 因电路板可靠性限制导致违规的累积持续时间。 |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Counter | μs | 因同步提升限制导致违规的累积持续时间。 |
DCGM_FI_DEV_THERMAL_VIOLATION | Counter | μs | 因热限制导致违规的累积持续时间。 |
DCGM_CUSTOM_XID_ERRORS_COUNTER | Counter | 个 | 在 Pod 层面,DCGM 获取 XID 设备错误的总数。 |
DCGM_CUSTOM_XID_ERRORS_TOTAL_COUNTER | Counter | 个 | 在 Node 层面,DCGM 获取 XID 设备错误的总数。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_PROF_PCIE_RX_BYTES | Counter | B/s | 通过 PCIe 总线接收的字节数。 |
DCGM_FI_PROF_PCIE_TX_BYTES | Counter | B/s | 通过 PCIe 总线传输的字节数。 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | Counter | 次 | GPU PCIe 总线的重试次数。 |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | Counter | - | GPU 所有通道的 NVLink 带宽计数器总数。 |
DCGM_FI_PROF_GR_ENGINE_ACTIVE | Gauge | % | 在一个时间间隔内,Graphics 或 Compute 引擎处于 Active 的时间占比。 |
DCGM_FI_PROF_SM_ACTIVE | Gauge | % | 在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active 的时间占比。 |
DCGM_FI_PROF_SM_OCCUPANCY | Gauge | % | 在一个时间间隔内,驻留在 SM 上的线程束与该 SM 最大可驻留线程束的比例。 |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | % | 单位时间内 Tensor Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_DRAM_ACTIVE | Gauge | % | 内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)。 |
DCGM_FI_PROF_PIPE_FP64_ACTIVE | Gauge | % | 单位时间内 F64 Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_PIPE_FP32_ACTIVE | Gauge | % | 单位时间内 F32 Pipes 平均处于 Active 状态的周期分数。 |
DCGM_FI_PROF_PIPE_FP16_ACTIVE | Gauge | % | 单位时间内 F16 Pipes 平均处于 Active 状态的周期分数。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_RETIRED_SBE | Counter | 个 | 因单 bit 错误而停用的内存页面。 |
DCGM_FI_DEV_RETIRED_DBE | Counter | 个 | 因双 bit 错误而停用的内存页面。 |
指标名称 | 指标类型 | 指标单位 | 指标含义 |
---|---|---|---|
DCGM_FI_DEV_VGPU_LICENSE_STATUS | Gauge | - | vGPU 许可证状态。 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS | Counter | - | 因无法纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS | Counter | - | 因可纠正的错误而重新映射的行数。 |
DCGM_FI_DEV_ROW_REMAP_FAILURE | Gauge | - | 重新映射行是否失败。 |
DCGM_FI_DRIVER_VERSION | Label | - | GPU 的驱动版本。 |
DCGM_FI_PROF_NVLINK_RX_BYTES | Gauge | B/s | 通过 NVLink 接收的数据速率,包括 header 和 payload。 |
DCGM_FI_PROF_NVLINK_TX_BYTES | Gauge | B/s | 通过 NVLink 传输的数据速率,包括 header 和 payload。 |