You need to enable JavaScript to run this app.
导航
集群监控实践和常用大盘
最近更新时间:2024.06.05 19:13:28首次发布时间:2023.12.01 16:21:28

集群监控是集群运维的重要组成部分。通过监控,您可以了解集群中各种资源的使用情况和工作状态,能够及时发现异常并处理,保障业务的正常运行。本文为您介绍集群监控的最佳实践,并提供了集群监控常用的监控大盘。

前提条件

集群已开启云原生观测。详情请参见 开启云原生观测

说明

建议将集群中的 Prometheus-agent 组件升级到最新版本。详情请参见 升级组件组件发布记录

操作步骤

步骤一:搭建 Grafana

您可以在集群中搭建 Grafana,并接入托管 Prometheus 工作区,构建面向集群的可视化监控平台。详情请参见 在容器服务集群中部署 Grafana 并接入工作区

说明

使用本文中提供的监控大盘时,Grafana 需要为 v9.0.2 及以上版本。

步骤二:导入监控大盘

在集群中完成部署 Grafana 后,您可以下载下文中提供的监控大盘,并导入到 Grafana 系统中使用。操作步骤如下:

  1. 本地环境中使用 kubectl 连接集群,并执行以下命令,配置 Grafana 服务的端口映射。
kubectl port-forward service/grafana 3000:3000 -n volcano-metrics
  1. 在本地环境中打开浏览器,在地址栏中输入 localhost:3000,进入 Grafana 登录界面,使用默认用户名admin和密码admin登录。
  2. 在左侧导航栏中,选择 Dashboards,进入监控大盘配置页面。
    alt
  3. 单击 New ,在下拉菜单中选择 import,进入导入大盘页面。
    alt
  4. 单击 Upload dashboard JSON file,并选择保存在本地的监控大盘 JSON 文件。
    alt
  5. 配置监控大盘的基本信息并选择数据源。
    alt
    配置项说明
    Name(可选)根据需要修改监控大盘的名称。
    Folder(可选)选择大盘保存的文件夹,不修改则默认保存在 General 文件夹。
    VMP选择数据源,您需要在下拉菜单中选择与目标集群绑定的托管 Prometheus 工作区。
  6. 单击 import,完成导入,即可查看监控大盘。
    alt

常用大盘

APIServer 监控大盘

该大盘主要展示了集群控制面 APIServer 的监控信息。
alt

信息分类说明
关键指标展示了集群 APIServer 的关键指标,包括:API QPS、读请求成功率、写请求成功率等。
概览展示了集群 APIServer 的概要信息,包括:GET 读请求时延、LIST 读请求时延、写请求时延、在处理读请求数量、在处理写请求数量等。
资源分析展示了集群 APIServer 的资源对象数量。
QPS 和时延展示了集群 APIServer 的 QPS 和时延信息,包括:按 Verb 维度分析 QPS、非 2xx 返回值的读请求 QPS 等。
准入控制器和 Webhook展示了集群 APIServer 的准入控制器和 Webhook 信息,包括:准入控制器时延、准入 Webhook 时延、准入 Webkook 请求 QPS 等。
ApiServer-20231201.json
70.42KB

ETCD 监控大盘

该大盘主要展示了集群控制面 ETCD 的监控信息。包括:ETCD 存活状态、过去一天切主次数、磁盘大小、 kv 总数等。
alt

Etcd-20231201.json
19.29KB

Scheduler 监控大盘

该大盘主要展示了集群控制面 Scheduler 的监控信息。
alt

信息分类说明
概览展示了集群 Scheduler 的概要信息,包括:Scheduler 集群统计数据、Scheduler Pending Pods。
Kube API展示了集群 Scheduler 的 API 信息,包括:Kube API 请求 QPS、Kube API 请求时延。
Scheduler-20231201.json
17.03KB

集群概览大盘

该大盘展示了集群的概览信息。
alt

信息分类说明
节点概况展示了集群节点概况,包括:节点总数、节点内存平均使用率、节点 CPU 平均使用率、节点内存使用率 Top 10、节点 CPU 使用率 Top 10 等。
命名空间概况展示了集群命名空间概况,包括:命名空间列表、命名空间中不同种类的工作负载数等。
容器概况展示了集群节点概况,包括:Pod 总数、容器内存使用率 Top 10、容器 CPU 使用率 Top 10、容器网络概况等。
Cluster Overview-20231201.json
64.81KB

命名空间概览大盘

该大盘展示了集群命名空间维度的概览信息。
alt

信息分类说明
资源数量展示了命名空间下的各类资源数量。包括:Pod 数量、容器数量、工作负载数量等。
资源使用率展示了命名空间下的资源使用率。包括:CPU 使用率、内存使用率等。
异常资源展示了命名空间下需要关注的异常资源数量。包括:状态为 NotReady 的工作负载、未被挂载的 PVC 等。
Namespace Overview-20231201.json
39.40KB

节点概览大盘

该大盘展示了节点维度的概览信息。
alt

信息分类说明
节点概况展示了节点的概要信息,包括:节点运行时间、节点内存总量、节点 CPU 总量、Pod 总量、Pod 列表等。
节点资源展示了节点资源的概要信息。包括:节点 CPU 使用率、节点内存使用率、节点磁盘读写 IOPs、节点网络、节点 TCP 连接等。
Node Overview-20231201.json
83.67KB

节点 TopN 大盘

该大盘展示了节点维度的 TopN 信息。包括:内存使用 Top5、CPU 使用 Top5、网络进出流量 Top5、磁盘使用率 Top5 等。
alt

Node TopN-20231201.json
20.39KB

集群 Deployment 监控大盘

该大盘展示了集群 Deployment 工作负载的监控信息。支持通过命名空间和工作负载名称,筛选查看指定工作负载的监控详情。
alt

信息分类说明
概要信息展示了工作负载的概要信息。包括:命名空间、Pod 数、状态等。
资源信息展示了工作负载的资源使用信息。包括:内存使用率、CPU 使用率、网络 IO、磁盘 IO 等。
Kubernetes Deployment-20231201.json
81.47KB

集群 StatefulSet 监控大盘

该大盘展示了集群 StatefulSet 工作负载的监控信息。支持通过命名空间和工作负载名称,筛选查看指定工作负载的监控详情。
alt

信息分类说明
概要信息展示了工作负载的概要信息。包括:命名空间、Pod 数、状态等。
资源信息展示了工作负载的资源使用信息。包括:内存使用率、CPU 使用率、网络 IO、磁盘 IO 等。
Kubernetes StatefulSet-20231201.json
72.04KB

集群 DaemonSet 监控大盘

该大盘展示了集群 DaemonSet 工作负载的监控信息。包括 Pod 数、CPU 使用量、内存使用量、网络 IO 等。
alt

Kubernetes Daemonset-20231201.json
31.06KB

集群 Workload 监控大盘

该大盘展示了集群中 Deployment 和 Pod 的概要信息。
alt

Workload-20231201.json
33.41KB

集群 Pod 监控大盘

该大盘展示了集群中 Pod 的监控信息。支持通过命名空间和 Pod 名称,筛选查看指定 Pod 的监控详情。
alt

信息分类说明
概要信息展示了 Pod 的概要信息。包括:命名空间、节点名称、状态、CPU 请求量、内存请求量等。
资源信息展示了 Pod 的资源使用信息。包括:CPU 使用量、内存使用量、CPU 使用率、内存使用率、CPU 负载、网络信息等。
Kubernetes Pod-20231201.json
63.02KB

CoreDNS 监控大盘

该大盘展示了集群中 CoreDNS 组件的监控信息。包括了 DNS 解析中 DNS Request 和 DNS Responses 的主要信息。例如:Request QPS、Request 成功率、Responses 时间、Responses Size、DNS Cache 等。
alt

CoreDNS-20231201.json
41.99KB