您可以在 E-MapReduce(简称“EMR”)集群详情的告警管理界面,配置不同组件产生对应事件类型时的告警规则,方便您及时感知组件的状态及事件类型的严重等级。本文将为您介绍创建告警规则的方式和组件事件类型的规则列表。
说明
本文档适用于3.2.0 / 2.1.1 及以前版本的集群,若您的集群版本较新,告警相关文档请参阅:告警中心。
展示告警规则信息。具体说明如下:
内容 | 说明 |
---|---|
告警规则名称 | 展示告警规则的名称,可用户自定义 |
更新时间 | 展示最近一次编辑告警规则的时间 |
操作用户 | 展示最近一次编辑告警规则的用户名称 |
状态 | 支持开启或关闭告警规则 |
操作 | 支持编辑或删除告警规则 |
注意
只有当对应严重等级的事件触发时,才能获取到事件通知。
组件 | 等级 | 事件 | 备注 |
---|---|---|---|
HDFS | 严重 | NameNode 进程状态 | 如果监听不到或者确认不了 NameNode 进程是否正常,则会触发 CRITICAL 警报。 |
NameNode Blocks 健康状况 | 如果存在 NameNode Blocks 丢失的情况,则会触发 CRITICAL 警报。 | ||
NameNode 容量使用情况 | 如果 NameNode 已使用容量达到总容量的 80%,则会触发 CRITICAL 警报 | ||
NameNode RPC 延迟状况 | 如果 NameNode RPC 延迟大于5000ms,则会触发 CRITICAL 警报 | ||
DataNode 健康状况 | 如果存在不健康的 DataNode,则会触发 CRITICAL 警报。 | ||
DataNode Service RPC 队列延迟(每小时) | 如果 DataNode 端口上的 RPC 队列延迟偏差在一个小时内超过了200ms,则将触发 CRITICAL 警报。 | ||
NameNode Client RPC 队列延迟(每小时) | 如果 NameNode Client 端口上的 RPC 队列延迟的偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。 | ||
DataNode Service RPC 处理延迟(每小时) | 如果 DataNode 端口上的 RPC 处理延迟偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。 | ||
NameNode Client RPC 处理延迟(每小时) | 如果 NameNode Client 端口上的 RPC 处理延迟偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。 | ||
NameNode 堆使用增量情况(每天) | 如果 NameNode 堆使用量增量在一天之内超过了50%,则将触发 CRITICAL 警报。 | ||
DataNode Service RPC 处理延迟(每天) | 如果 DataNode 端口上的 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。 | ||
NameNode Client RPC 处理延迟(每天) | 如果 NameNode Client 端口上 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。 | ||
DataNode Service RPC 队列延迟(每天) | 如果 DataNode 端口上的 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。 | ||
NameNode Client RPC 队列延迟(每天) | 如果 NameNode Client 端口上 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。 | ||
HDFS 存储容量使用增量情况(每天) | 如果 NameNode 存储容量使用量增量在一天内超过了50%,则会触发 CRITICAL 警报。 | ||
NameNode 堆使用增量情况(每周) | 如果 NameNode 堆使用量增量在一周内超过50%,则将触发 CRITICAL 警报。 | ||
HDFS 存储容量使用增量情况(每周) | 如果 NameNode 存储容量使用量增量在一周内超过50%,则会触发 CRITICAL 警报。 | ||
备用 NameNode 进程状态 | 如果 Secondary NameNode 端口无法访问,则触发 CRITICAL 警报 | ||
DataNode 进程状态 | 如果 DataNode 进程端口响应时间大于5s,触发 CRITICAL 警报 | ||
DataNode 容量使用情况 | 如果集群中任意一台 DataNode 上的存储容量占用超过 80%,则会触发 CRITICAL 警报 | ||
DataNode 堆使用情况 | 如果 DataNode 当前的堆内存使用量超过 90%,则会触发 CRITICAL 警报 | ||
HDFS待删除块健康状态 | 如果 HDFS 中待删除的块数超过 100000,则会触发 CRITICAL 警报。 | ||
警告 | NameNode 安全模式状态 | 如果 NameNode 当前处于安全状态,则触发 WARNING 警报。 | |
NameNode 容量使用情况 | 如果 NameNode 已使用容量达到总容量的 75%,则会触发 WARNING 警报 | ||
NameNode RPC 延迟状况 | 如果 NameNode RPC 延迟大于3000ms,则会触发 WARNING 警报 | ||
备用 NameNode 进程状态 | 如果 Secondary NameNode 端口访问返回 400 以上的响应码,则触发 WARNING 警报 | ||
DataNode 容量使用情况 | 如果集群中任意一台 DataNode 上的存储容量占用超过 75%,则会触发 WARNING 警报 | ||
DataNode 堆使用情况 | 如果 DataNode 当前的堆内存使用量超过 80%,则会触发 WARNING 警报 | ||
Hive | 严重 | Hive Metastore 进程状态 | 如果监听不到或者确认不了 Hive Metastore 进程是否正常,则会触发 CRITICAL 警报。 |
HiveServer2 进程状态 | 如果监听不到或者确认不了 HiveServer2 进程是否正常,则会触发 CRITICAL 警报。 | ||
Kafka | 严重 | Kafka Broker 进程状态 | 如果监听不到或者确认不了 Kafka Broker 进程是否正常,则会触发 CRITICAL 警报。 |
YARN | 严重 | ResourceManager 进程状态 | 如果监听不到或者确认不了 ResourceManager 进程是否正常,则会触发 CRITICAL 警报。 |
NodeManager 健康状况 | 如果 NodeManager 进程访问失败,或者是带回的节点健康信息并不健康,则触发 CRITICAL 警告。 | ||
ResourceManager RPC 延迟情况 | 如果 ResourceManager RPC 平均延迟时间超过 5000ms,则触发 CRITICAL 警报。 | ||
警告 | ResourceManager RPC 延迟情况 | 如果 ResourceManager RPC 平均延迟时间超过 3000ms,则触发 WARNING 警报。 | |
ZooKeeper | 严重 | ZooKeeper 进程状态 | 如果监听不到或者确认不了 ZooKeeper 进程是否正常,则会触发 CRITICAL 警报。 |
HBase | 严重 | HRegion 进程状态 | 如果监听不到或者确认不了 HRegion 进程是否正常,则会触发 CRITICAL 警报。 |
HMaster 进程状态 | 如果监听不到或者确认不了 HMaster 进程是否正常,则会触发 CRITICAL 警报。 | ||
MapReduce2 | 严重 | MapReduce2 HistoryServer 进程状态 | 如果监听不到或者确认不了 MapReduce2 HistoryServer 进程是否正常,则会触发 CRITICAL 警报。 |
History Server RPC 延迟情况 | 如果 History Server RPC 平均延迟时间超过 5000ms,则触发 CRITICAL 警报。 | ||
警告 | History Server RPC 延迟情况 | 如果 History Server RPC 平均延迟时间超过 3000ms,则触发 WARNING 警报。 | |
Impala | 严重 | Impalad 进程状态 | 如果监听不到或者确认不了 Impalad 进程是否正常,则会触发 CRITICAL 警报。 |
Statestored 进程状态 | 如果监听不到或者确认不了 Statestored 进程是否正常,则会触发 CRITICAL 警报。 | ||
Catalogd 进程状态 | 如果监听不到或者确认不了 Catalogd 进程是否正常,则会触发 CRITICAL 警报。 | ||
Kudu | 严重 | Kudu Master 进程状态 | 如果监听不到或者确认不了 KuduMaster 进程是否正常,则会触发 CRITICAL 警报。 |
Kudu TServer 进程状态 | 如果监听不到或者确认不了 KuduTServer 进程是否正常,则会触发 CRITICAL 警报。 | ||
ClickHouse | 严重 | Clickhouse 进程状态 | 如果监听不到或者确认不了 Clickhouse 进程是否正常,则会触发 CRITICAL 警报。 |
Trino | 严重 | Coordinator 进程状态 | 如果监听不到或者确认不了 Coordinator 进程是否正常,则会触发 CRITICAL 警报。 |
Worker 进程状态 | 如果监听不到或者确认不了 Worker 进程是否正常,则会触发 CRITICAL 警报。 | ||
Presto | 严重 | Coordinator 进程状态 | 如果监听不到或者确认不了 Coordinator 进程是否正常,则会触发 CRITICAL 警报。 |
Worker 进程状态 | 如果监听不到或者确认不了 Worker 进程是否正常,则会触发 CRITICAL 警报。 | ||
Doris | 严重 | BE 进程状态 | 如果监听不到或者确认不了 BE 进程是否正常,则会触发 CRITICAL 警报。 |
FE 进程状态 | 如果监听不到或者确认不了 FE 进程是否正常,则会触发 CRITICAL 警报。 | ||
StarRocks | 严重 | BE 进程状态 | 如果监听不到或者确认不了 BE 进程是否正常,则会触发 CRITICAL 警报。 |
FE 进程状态 | 如果监听不到或者确认不了 FE 进程是否正常,则会触发 CRITICAL 警报。 |
点击告警规则名称,即可查看当前告警规则的配置信息,包含事件类型、通知方式等配置详情。
选择告警规则,点击右侧操作栏中的编辑按钮,可以在弹窗中修改规则名称、事件类型、严重等级及通知方式。点击确定按钮,即可生效。
若不需要继续订阅某些告警,可以选择对应的告警规则,点击删除并确认,即可删除告警规则,取消订阅。
若需要查看历史告警信息,可以点击 Tab 切换到告警历史查看历史的告警信息,包括发生时间以及告警信息详情等:
您可以在时间筛选框中,指定历史时间范围,查看指定时间内的告警历史信息。
您也可以在搜索框中,输入规则名称、事件类型等信息,来精确搜索告警历史。