You need to enable JavaScript to run this app.
导航
VCI GPU 监控指标
最近更新时间:2024.11.08 18:19:41首次发布时间:2023.11.28 19:44:03

本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。

指标说明

VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标

指标获取方式

VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标:

curl http://<pod-ip>:1025/metrics

其中变量<pod-ip>替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示:

curl http://10.16.**.**:1025/metrics

DCGM 支持的指标

频率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_SM_CLOCKGaugeMHzGPU 流式多处理器时钟频率。
DCGM_FI_DEV_MEM_CLOCKGaugeMHzGPU 内存时钟频率。

内存

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_FB_FREEGaugeMiBGPU 帧缓存剩余量。
DCGM_FI_DEV_FB_USEDGaugeMiBGPU 帧缓存使用量。

说明

在 GPU 里,显卡内存(显存)也被称为帧缓存。

温度和功率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_TEMPGaugeGPU 当前温度。
DCGM_FI_DEV_MEMORY_TEMPGaugeGPU 显存当前温度。
DCGM_FI_DEV_POWER_USAGEGaugeWGPU 当前使用功率。
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTIONCountermJ从上一次加载驱动以来 GPU 的总能耗。

利用率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_UTILGauge%GPU 利用率。
DCGM_FI_DEV_MEM_COPY_UTILGauge%GPU 内存带宽利用率。
DCGM_FI_DEV_ENC_UTILGauge%GPU 编码器利用率。
DCGM_FI_DEV_DEC_UTILGauge%GPU 解码器利用率。

XID 错误&违规

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_XID_ERRORSGauge-最后发生的 XID 错误号。
DCGM_FI_DEV_BOARD_LIMIT_VIOLATIONCounterμs因电路板限制导致违规的累积持续时间。
DCGM_FI_DEV_LOW_UTIL_VIOLATIONCounterμs因低利用率限制导致违规的累积持续时间。
DCGM_FI_DEV_POWER_VIOLATIONCounterμs因功率上限导致违规的累积持续时间。
DCGM_FI_DEV_RELIABILITY_VIOLATIONCounterμs因电路板可靠性限制导致违规的累积持续时间。
DCGM_FI_DEV_SYNC_BOOST_VIOLATIONCounterμs因同步提升限制导致违规的累积持续时间。
DCGM_FI_DEV_THERMAL_VIOLATIONCounterμs因热限制导致违规的累积持续时间。
DCGM_CUSTOM_XID_ERRORS_COUNTERCounter在 Pod 层面,DCGM 获取 XID 设备错误的总数。
DCGM_CUSTOM_XID_ERRORS_TOTAL_COUNTERCounter在 Node 层面,DCGM 获取 XID 设备错误的总数。

剖析

指标名称指标类型指标单位指标含义
DCGM_FI_PROF_PCIE_RX_BYTESCounterB/s通过 PCIe 总线接收的字节数。
DCGM_FI_PROF_PCIE_TX_BYTESCounterB/s通过 PCIe 总线传输的字节数。
DCGM_FI_DEV_PCIE_REPLAY_COUNTERCounterGPU PCIe 总线的重试次数。
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTALCounter-GPU 所有通道的 NVLink 带宽计数器总数。
DCGM_FI_PROF_GR_ENGINE_ACTIVEGauge%在一个时间间隔内,Graphics 或 Compute 引擎处于 Active 的时间占比。

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active 的时间占比。
该值统计的是所有 SM 的均值。

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

在一个时间间隔内,驻留在 SM 上的线程束与该 SM 最大可驻留线程束的比例。
该值统计的是所有 SM 的均值。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVEGauge%单位时间内 Tensor Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_DRAM_ACTIVEGauge%内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)。
DCGM_FI_PROF_PIPE_FP64_ACTIVEGauge%单位时间内 F64 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP32_ACTIVEGauge%单位时间内 F32 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP16_ACTIVEGauge%单位时间内 F16 Pipes 平均处于 Active 状态的周期分数。

停用的内存页面

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_RETIRED_SBECounter因单 bit 错误而停用的内存页面。
DCGM_FI_DEV_RETIRED_DBECounter因双 bit 错误而停用的内存页面。

其他

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_VGPU_LICENSE_STATUSGauge-vGPU 许可证状态。
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWSCounter-因无法纠正的错误而重新映射的行数。
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWSCounter-因可纠正的错误而重新映射的行数。
DCGM_FI_DEV_ROW_REMAP_FAILUREGauge-重新映射行是否失败。
DCGM_FI_DRIVER_VERSIONLabel-GPU 的驱动版本。
DCGM_FI_PROF_NVLINK_RX_BYTESGaugeB/s通过 NVLink 接收的数据速率,包括 header 和 payload。
DCGM_FI_PROF_NVLINK_TX_BYTESGaugeB/s通过 NVLink 传输的数据速率,包括 header 和 payload。