火山引擎托管 Prometheus 允许用户快速创建云端托管的标准 Prometheus 服务,为用户省去 Prometheus 的管理和维护工作,轻松满足对 Kubernetes 集群监控和自定义等监控场景。
托管 Prometheus 支持与容器服务 VKE 深度集成,覆盖全面的 Kubernetes 容器集群监控场景。并基于 kubelet-cadvisor、node-exporter、kube-state-metrics 等组件,实现集群、节点、组件、容器、应用、网络等多维度的监控。
Kubernetes 云原生集群监控包括多种类型的资源、组件和对象,如下表所示。
监控对象 | 对应组件 | 说明 |
---|---|---|
节点 | node-exporter | 节点的运行指标,包括节点的 CPU、内存、文件系统、网络等基础监控指标。 |
容器 | kubelet-cadvisor | 容器的运行统计信息,例如 CPU、内存、网络吞吐等性能指标。 |
Kubelet | kubelet | Kubelet 性能指标,例如 HTTP 请求数、HTTP 请求耗时、节点配置错误等。 |
Kubernetes 资源 | kube-state-metrics | Kubernetes 资源对象的状态指标,例如 Pod 重启、节点状态异常等。 |
NVIDIA GPU 显卡 | nvidia-device-plugin | NVIDIA GPU 显卡的性能指标,例如温度、功率、利用率、Xid 等。 |
共享 GPU 显卡 | mgpu | 共享 GPU 显卡的性能指标,例如 Pod 的显存利用率、显存利用量等。 |
RDMA 网络 | rdma-device-plugin | RDMA 网络性能指标,包括吞吐、拥塞、重传乱序等指标。 |
Ingress-nginx 组件 | ingress-nginx | Ingress-nginx 组件的性能指标,例如请求数、请求处理延时、配置重载次数等。 |
P2P 镜像加速功能 | p2p-accelerator | P2P 镜像加速的性能指标,例如代理请求数、镜像加速任务数等。 |
镜像加速功能 | image-accelerator | 镜像启动加速的性能指标。 |
托管 Prometheus 服务拥有良好的开源亲和性,支持基于社区开源的第三方 Exporter,面向开源生态(中间件、数据库等)进行指标观测。主要特点如下:
在自定义业务监控场景下,允许用户自定义需要上报的监控指标。例如:订单交易量、用户活跃度等。同时,结合容器指标、中间件指标等,可以全链路完成业务的观测和监控。主要特点如下:
云监控是火山引擎云上一站式监控告警解决方案。可以帮助您收集并可视化展示火山引擎上多种类型云产品的资源状态和监控信息,包括:云服务器、集群、网关、专线连接、云存储等。详情请参见 什么是云监控。
您可以通过将云监控接入托管 Prometheus,与您集群中的业务监控数据进行汇聚,实现业务数据和基础资源数据的统一监控。同时,还可以借助托管 Prometheus 与 Grafana 的天然兼容性,使用 Grafana 搭建业务相关的大盘。
部分云产品提供了自身监控的 exporter 和指标集,但这些云产品的指标及看板散落在各自的控制台。为了能将这些数据进行统一采集和展示,托管 Prometheus 支持通过部署 exporter 并接入的方式,提供更加便捷、一致的日常运维监控能力。