概述
EMR StarRocks提供了比较丰富的监控指标和告警指标,这些监控指标对确保数据库的稳定运行和优化业务决策具有重要意义。这些指标提供了对StarRocks性能、可用性和资源利用率的实时视图,使数据库管理员可以及时识别并解决潜在的性能瓶颈或故障。它们帮助维护系统的高效运行,确保数据查询和分析任务能够快速且可靠地完成。此外,通过监控这些指标,企业能够优化资源配置,提高运营效率,提高集群的稳定性,提高集群资源的利用率。
观测指标说明
基本健康检查指标
- 集群可用性:检查所有节点(包括 FE 和 BE 节点)是否在线且响应正常。可通过健康状态查看FE与BE/CN的节点数与活跃节点数,如果活跃节点数小于总节点数,说明部分节点异常。
- 容量信息:用来说明集群总存储大小,FE总可用内存相关的信息。
性能与负载相关指标
- 查询延迟 (Query Latency):平均查询时间和最长查询时间可以帮助评估集群的响应速度。如果发现查询延迟突然增加,这可能是负载过重或资源瓶颈的标志。
- QPS (Queries Per Second):每秒处理的查询数量。高 QPS 可能表明系统正在承受较大的压力。
- FE 连接数情况:已建立连接到FE的客户端端情况。集群FE平均已连接数代表多个FE已建立连接的平均数。
- FE 堆内存使用:代表FE JVM占用内存的使用率。高的内存使用率(80%)代表FE的负载较高,需要对FE内存进行扩容。
- BE Fragment 请求响应时间:代表BE执行Fragment的响应时间,该时间的突然上升代表集群负载过高,可能会有任务堆积。
- CPU 使用率:监控各个节点的 CPU 使用情况。持续的高 CPU 使用率(如超过 80%)可能表示计算资源紧张。
- 内存使用率:检查 BE 节点的内存使用情况,尤其是缓存和缓冲区的占用。如果内存使用率接近上限,可能会导致 OOM (Out of Memory) 错误。
- 磁盘使用率:监控数据存储的磁盘空间。当磁盘使用率达到较高水平时(例如 70% 以上),应考虑扩展存储或优化数据管理策略。
- 网络流量:监控网络带宽的使用情况,特别是对于分布式查询来说,网络延迟和带宽限制可能成为性能瓶颈。
故障预警指标
- 节点离线:查看健康状态中的故障节点数,任何 FE 或 BE 节点的非计划下线都应立即引起注意。这可能是硬件故障、软件崩溃或网络问题的信号。
说明
通过观测节点CPU/内存利用率,如果任意节点出现异常低的cpu和内存利用率,表明集群可能出现异常。通过观测健康状态,如果发现任意的FE,BE/CN节点出现非预期的不健康状态,表明集群出现异常。
- 数据副本状态:在分布式环境中,数据通常会有多个副本以提高可靠性和容错能力。集群创建Tablet失败率上升代表集群可能出现故障。