集群监控是集群运维的重要组成部分。通过监控,您可以了解集群中各种资源的使用情况和工作状态,能够及时发现异常并处理,保障业务的正常运行。本文为您介绍集群监控的最佳实践,并提供了集群监控常用的监控大盘。
集群已开启云原生观测。详情请参见 开启云原生观测。
您可以在集群中搭建 Grafana,并接入托管 Prometheus 工作区,构建面向集群的可视化监控平台。详情请参见 在容器服务集群中部署 Grafana 并接入工作区。
说明
使用本文中提供的监控大盘时,Grafana 需要为 v9.0.2 及以上版本。
在集群中完成部署 Grafana 后,您可以下载下文中提供的监控大盘,并导入到 Grafana 系统中使用。操作步骤如下:
kubectl port-forward service/grafana 3000:3000 -n volcano-metrics
admin
和密码admin
登录。配置项 | 说明 |
---|---|
Name | (可选)根据需要修改监控大盘的名称。 |
Folder | (可选)选择大盘保存的文件夹,不修改则默认保存在 General 文件夹。 |
VMP | 选择数据源,您需要在下拉菜单中选择与目标集群绑定的托管 Prometheus 工作区。 |
该大盘主要展示了集群控制面 APIServer 的监控信息。
信息分类 | 说明 |
---|---|
关键指标 | 展示了集群 APIServer 的关键指标,包括:API QPS、读请求成功率、写请求成功率等。 |
概览 | 展示了集群 APIServer 的概要信息,包括:GET 读请求时延、LIST 读请求时延、写请求时延、在处理读请求数量、在处理写请求数量等。 |
资源分析 | 展示了集群 APIServer 的资源对象数量。 |
QPS 和时延 | 展示了集群 APIServer 的 QPS 和时延信息,包括:按 Verb 维度分析 QPS、非 2xx 返回值的读请求 QPS 等。 |
准入控制器和 Webhook | 展示了集群 APIServer 的准入控制器和 Webhook 信息,包括:准入控制器时延、准入 Webhook 时延、准入 Webkook 请求 QPS 等。 |
该大盘主要展示了集群控制面 ETCD 的监控信息。包括:ETCD 存活状态、过去一天切主次数、磁盘大小、 kv 总数等。
该大盘主要展示了集群控制面 Scheduler 的监控信息。
信息分类 | 说明 |
---|---|
概览 | 展示了集群 Scheduler 的概要信息,包括:Scheduler 集群统计数据、Scheduler Pending Pods。 |
Kube API | 展示了集群 Scheduler 的 API 信息,包括:Kube API 请求 QPS、Kube API 请求时延。 |
该大盘展示了集群的概览信息。
信息分类 | 说明 |
---|---|
节点概况 | 展示了集群节点概况,包括:节点总数、节点内存平均使用率、节点 CPU 平均使用率、节点内存使用率 Top 10、节点 CPU 使用率 Top 10 等。 |
命名空间概况 | 展示了集群命名空间概况,包括:命名空间列表、命名空间中不同种类的工作负载数等。 |
容器概况 | 展示了集群节点概况,包括:Pod 总数、容器内存使用率 Top 10、容器 CPU 使用率 Top 10、容器网络概况等。 |
该大盘展示了集群命名空间维度的概览信息。
信息分类 | 说明 |
---|---|
资源数量 | 展示了命名空间下的各类资源数量。包括:Pod 数量、容器数量、工作负载数量等。 |
资源使用率 | 展示了命名空间下的资源使用率。包括:CPU 使用率、内存使用率等。 |
异常资源 | 展示了命名空间下需要关注的异常资源数量。包括:状态为 NotReady 的工作负载、未被挂载的 PVC 等。 |
该大盘展示了节点维度的概览信息。
信息分类 | 说明 |
---|---|
节点概况 | 展示了节点的概要信息,包括:节点运行时间、节点内存总量、节点 CPU 总量、Pod 总量、Pod 列表等。 |
节点资源 | 展示了节点资源的概要信息。包括:节点 CPU 使用率、节点内存使用率、节点磁盘读写 IOPs、节点网络、节点 TCP 连接等。 |
该大盘展示了节点维度的 TopN 信息。包括:内存使用 Top5、CPU 使用 Top5、网络进出流量 Top5、磁盘使用率 Top5 等。
该大盘展示了集群 Deployment 工作负载的监控信息。支持通过命名空间和工作负载名称,筛选查看指定工作负载的监控详情。
信息分类 | 说明 |
---|---|
概要信息 | 展示了工作负载的概要信息。包括:命名空间、Pod 数、状态等。 |
资源信息 | 展示了工作负载的资源使用信息。包括:内存使用率、CPU 使用率、网络 IO、磁盘 IO 等。 |
该大盘展示了集群 StatefulSet 工作负载的监控信息。支持通过命名空间和工作负载名称,筛选查看指定工作负载的监控详情。
信息分类 | 说明 |
---|---|
概要信息 | 展示了工作负载的概要信息。包括:命名空间、Pod 数、状态等。 |
资源信息 | 展示了工作负载的资源使用信息。包括:内存使用率、CPU 使用率、网络 IO、磁盘 IO 等。 |
该大盘展示了集群 DaemonSet 工作负载的监控信息。包括 Pod 数、CPU 使用量、内存使用量、网络 IO 等。
该大盘展示了集群中 Deployment 和 Pod 的概要信息。
该大盘展示了集群中 Pod 的监控信息。支持通过命名空间和 Pod 名称,筛选查看指定 Pod 的监控详情。
信息分类 | 说明 |
---|---|
概要信息 | 展示了 Pod 的概要信息。包括:命名空间、节点名称、状态、CPU 请求量、内存请求量等。 |
资源信息 | 展示了 Pod 的资源使用信息。包括:CPU 使用量、内存使用量、CPU 使用率、内存使用率、CPU 负载、网络信息等。 |
该大盘展示了集群中 CoreDNS 组件的监控信息。包括了 DNS 解析中 DNS Request 和 DNS Responses 的主要信息。例如:Request QPS、Request 成功率、Responses 时间、Responses Size、DNS Cache 等。