VCI 基于托管 Prometheus 服务(VMP)对 VCI 实例进行基础监控。本文主要介绍配置 VCI 监控指标采集规则和查询指标信息的方法。
前提条件
- VCI 业务集群已开启云原生观测容器服务观测,详情请参见 开启云原生观测。
- VCI 业务集群中的 prometheus-agent 组件已经升级到 v2.2.0 及以上版本。详情请参见 组件发布记录。
配置监控采集规则
当您将 VCI 业务集群正确开启云原生观测,并安装了对应的组件后,需要配置对应的采集规则,才能正确采集指标。下文主要描述 VCI 场景下配置监控采集规则的方法,详细的操作步骤和说明,请参见 容器服务观测、AI 资源观测。
- 登录 容器服务控制台。
- 在左侧导航栏中选择 集群。
- 在集群列表页面,单击目标集群。
- 在集群管理页面的左侧导航栏中,单击 观测配置。
- 按需启用观测组件,并编辑配置 VCI 相关指标。详细的操作步骤和说明,请参见 容器服务观测、AI 资源观测。
说明
- VCI 场景下主要使用 容器服务 和 AI 资源 观测组件。
- 非 GPU(例如 CPU、内存、网络等)相关指标,可在 容器服务 组件中编辑配置。
- GPU 相关指标,在 AI 资源 观测组件中编辑配置。
- VCI 实例支持的详细监控指标,请参见 通过虚拟节点获取 VCI 监控指标、VCI GPU 监控指标。
查询监控指标
配置好监控采集规则后,可在托管 Prometheus 控制台查询 VCI 实例监控指标。详细的操作,请参见 指标查询。
- 登录 VMP 服务控制台。
- 在顶部导航栏,选择目标地域。
- 单击左侧导航栏的 Explore,进入 Explore 页面。
- 在右上角的配置项中,配置需要查询指标的 工作区、查询时间段 和 数据刷新方式。
- 使用 PromQL 查询语句查询 VCI 实例指标。
- 通过虚拟节点查询 VCI 指标:
$指标名称{node="$虚拟节点名称"}
,例如container_cpu_usage_seconds_total{node="vci-node1-cn-beijing-a"}
。 - 查询 VCI GPU 指标:
$指标名称{pod="$VCI 实例名称"}
,例如DCGM_FI_DEV_DEC_UTIL{pod="vci-ini2-d75d77bc5-82lch"}
。
- 单击 查询,即可查询相关的指标,并显示指标大盘。