You need to enable JavaScript to run this app.
导航
VCI GPU 监控指标
最近更新时间:2024.11.08 18:19:41首次发布时间:2023.11.28 19:44:03
我的收藏
有用
有用
无用
无用

本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。

指标说明

VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标

指标获取方式

VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标:

curl http://<pod-ip>:1025/metrics

其中变量<pod-ip>替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示:

curl http://10.16.**.**:1025/metrics

DCGM 支持的指标

频率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_SM_CLOCKGaugeMHzGPU 流式多处理器时钟频率。
DCGM_FI_DEV_MEM_CLOCKGaugeMHzGPU 内存时钟频率。

内存

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_FB_FREEGaugeMiBGPU 帧缓存剩余量。
DCGM_FI_DEV_FB_USEDGaugeMiBGPU 帧缓存使用量。

说明

在 GPU 里,显卡内存(显存)也被称为帧缓存。

温度和功率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_TEMPGaugeGPU 当前温度。
DCGM_FI_DEV_MEMORY_TEMPGaugeGPU 显存当前温度。
DCGM_FI_DEV_POWER_USAGEGaugeWGPU 当前使用功率。
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTIONCountermJ从上一次加载驱动以来 GPU 的总能耗。

利用率

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_GPU_UTILGauge%GPU 利用率。
DCGM_FI_DEV_MEM_COPY_UTILGauge%GPU 内存带宽利用率。
DCGM_FI_DEV_ENC_UTILGauge%GPU 编码器利用率。
DCGM_FI_DEV_DEC_UTILGauge%GPU 解码器利用率。

XID 错误&违规

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_XID_ERRORSGauge-最后发生的 XID 错误号。
DCGM_FI_DEV_BOARD_LIMIT_VIOLATIONCounterμs因电路板限制导致违规的累积持续时间。
DCGM_FI_DEV_LOW_UTIL_VIOLATIONCounterμs因低利用率限制导致违规的累积持续时间。
DCGM_FI_DEV_POWER_VIOLATIONCounterμs因功率上限导致违规的累积持续时间。
DCGM_FI_DEV_RELIABILITY_VIOLATIONCounterμs因电路板可靠性限制导致违规的累积持续时间。
DCGM_FI_DEV_SYNC_BOOST_VIOLATIONCounterμs因同步提升限制导致违规的累积持续时间。
DCGM_FI_DEV_THERMAL_VIOLATIONCounterμs因热限制导致违规的累积持续时间。
DCGM_CUSTOM_XID_ERRORS_COUNTERCounter在 Pod 层面,DCGM 获取 XID 设备错误的总数。
DCGM_CUSTOM_XID_ERRORS_TOTAL_COUNTERCounter在 Node 层面,DCGM 获取 XID 设备错误的总数。

剖析

指标名称指标类型指标单位指标含义
DCGM_FI_PROF_PCIE_RX_BYTESCounterB/s通过 PCIe 总线接收的字节数。
DCGM_FI_PROF_PCIE_TX_BYTESCounterB/s通过 PCIe 总线传输的字节数。
DCGM_FI_DEV_PCIE_REPLAY_COUNTERCounterGPU PCIe 总线的重试次数。
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTALCounter-GPU 所有通道的 NVLink 带宽计数器总数。
DCGM_FI_PROF_GR_ENGINE_ACTIVEGauge%在一个时间间隔内,Graphics 或 Compute 引擎处于 Active 的时间占比。

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active 的时间占比。
该值统计的是所有 SM 的均值。

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

在一个时间间隔内,驻留在 SM 上的线程束与该 SM 最大可驻留线程束的比例。
该值统计的是所有 SM 的均值。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVEGauge%单位时间内 Tensor Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_DRAM_ACTIVEGauge%内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)。
DCGM_FI_PROF_PIPE_FP64_ACTIVEGauge%单位时间内 F64 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP32_ACTIVEGauge%单位时间内 F32 Pipes 平均处于 Active 状态的周期分数。
DCGM_FI_PROF_PIPE_FP16_ACTIVEGauge%单位时间内 F16 Pipes 平均处于 Active 状态的周期分数。

停用的内存页面

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_RETIRED_SBECounter因单 bit 错误而停用的内存页面。
DCGM_FI_DEV_RETIRED_DBECounter因双 bit 错误而停用的内存页面。

其他

指标名称指标类型指标单位指标含义
DCGM_FI_DEV_VGPU_LICENSE_STATUSGauge-vGPU 许可证状态。
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWSCounter-因无法纠正的错误而重新映射的行数。
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWSCounter-因可纠正的错误而重新映射的行数。
DCGM_FI_DEV_ROW_REMAP_FAILUREGauge-重新映射行是否失败。
DCGM_FI_DRIVER_VERSIONLabel-GPU 的驱动版本。
DCGM_FI_PROF_NVLINK_RX_BYTESGaugeB/s通过 NVLink 接收的数据速率,包括 header 和 payload。
DCGM_FI_PROF_NVLINK_TX_BYTESGaugeB/s通过 NVLink 传输的数据速率,包括 header 和 payload。