火山引擎 E-MapReduce(EMR)对接云监控的事件中心,提供了监控 EMR 集群事件的能力。您可以基于事件中心查看 EMR 集群发生的事件详情,也可以自定义事件规则与事件通知的联系人,以便您实时捕获 EMR 发生的关键事件并及时修复。
本文介绍如何查看 EMR 集群事件以及如何自定义事件规则。
如果您通过事件中心未查询到云产品的事件信息,则表示云产品未发生事件或者发生的事件已经超过30天。
说明
已发生的事件默认保存30天。
登录云监控控制台。
在左侧导航栏,单击选择告警中心 > 告警联系人,进入告警联系人列表界面。
在列表界面,单击创建联系人按钮。
在创建联系人弹窗页面中,填写告警联系人的姓名、邮箱或者手机,然后单击确定按钮,完成联系人创建。
设置邮箱或者手机并创建联系人后,云监控会向指定的邮箱或手机号码发送验证消息。
以邮箱为例,验证消息内容如下图所示,您需要单击链接以完成验证。
当您创建告警策略时,选择相应的联系组,即可通过联系组接收告警通知。
登录云监控控制台。
在左侧导航栏,选择告警中心 > 告警联系人,进入告警联系人列表界面。
在列表界面,单击联系组页签,然后单击创建联系组按钮。
在创建联系组弹窗页面中,填写联系组的名称、描述,并选择联系人,然后单击确定。
例如,创建成功的联系组为 TESTGroup01 。
本场景将创建一个事件规则,用于监控云服务器的创建实例:执行中
事件。一旦云服务器发生了该事件,云监控会通过已设置的告警渠道将事件信息发送至指定的告警联系人或告警联系组。
登录云监控控制台。
在左侧导航栏,单击选择事件中心 > 事件规则按钮,进入事件规则界面。
在事件规则页面,单击创建事件规则按钮。
在创建事件规则页面,完成以下配置。
配置项说明:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 | 示例值 |
---|---|---|
基本信息 | ||
*名称 | 自定义名称,用于标识事件规则。不支持以数字、中划线开头,名称长度允许在1~128个字符之间。 | 事件规则Demo |
描述 | 输入事件规则描述信息,方便后续管理。 | 事件规则Demo |
事件规则 | ||
*资源类型 | 在下拉框中选定被监控的云产品名称。 | E-MapReduce |
*事件名称 | 选择资源类型后,页面会自动显示该下拉列表。您需要手动选择一个或多个事件名称。 | 节点组扩容失败 |
*生效时间 | 以天为周期,指定事件规则的生效时间段。事件中心只在指定的生效时间内监控云产品是否触发了事件规则。 | 00:00 - 23:59 |
*严重程度 | 用于标识事件的严重程度。支持下拉选择设置严重、警告、通知。 | 警告 |
投递方式 | ||
*投递渠道 | 系统通过指定的渠道发送告警通知。支持设置邮箱、电话、短信、告警回调、日志服务的其中一个或多个渠道。
| 邮箱、电话、短信方式: |
事件规则配置信息填写完后,单击确定按钮,完成事件规则配置。
创建完成后,在事件规则页面的列表内,您可以查看已创建的事件规则信息。当被监控的云产品发生符合条件的事件时,即可通过邮箱、电话或短信接收告警通知。
您也可以在事件规则界面,进行规则管理,如启用、停用、删除、编辑规则等操作。
登录云监控控制台。
在左侧导航栏,单击选择事件中心 > 云产品事件按钮,进入云产品事件界面。
在云产品事件页面,查看指定时间段内的云产品事件信息。
在云产品事件界面,支持您通过设置时间段、云产品以及事件类型,来过滤事件信息:
支持快捷选择或自定义选择时间段,以过滤该时间段内发生的事件。
说明
默认查询最近1小时内的事件信息。
指定的时间段支持精确到分钟级别,秒数默认为00。
支持选择各云产品以及事件类型过滤事件信息。
您可以查看符合过滤条件的事件列表。其中事件字符串由三部分组成,格式为事件源:事件类型:事件内容
。 例如,事件 emr:ClusterGroup:extend.ERROR
的事件源为 EMR、事件类型为节点组、事件内容为扩容失败。
选中某一具体的事件,在右侧操作列中单击详情按钮。 在事件详情界面,您可以查看到 JSON 格式的事件详细信息。
资源类型为 E-MapReduce 时,支持的事件规则列表如下:
维度 | 事件名称 |
---|---|
集群 | 集群创建失败 |
集群创建成功 | |
集群释放失败 | |
集群释放成功 | |
节点组扩容失败 | |
节点组扩容成功 | |
节点组缩容失败 | |
节点组缩容成功 | |
节点组磁盘扩容失败 | |
节点组磁盘扩缩容成功 | |
服务 | Airflow- Schedule进程状态异常 |
Airflow- Websever进程状态异常 | |
Airflow- Worker进程状态异常 | |
BookKeeper - Bookie进程状态异常 | |
DolphinSchedule - SlertSever进程状态异常 | |
DolphinSchedule - ApiSever进程状态异常 | |
DolphinSchedule - MasterSever进程状态异常 | |
DolphinSchedule - WorkerSever进程状态异常 | |
Doris - BE 进程状态异常 | |
Doris - FE 进程状态异常 | |
Flume - FlumeAgent进程状态异常 | |
GTS - Sever进程状态异常 | |
HBase - HMaster 进程状态异常 | |
HBase - HRegion 进程状态异常 | |
HDFS - Datanode进程状态异常 | |
HDFS - JournalNode进程状态异常 | |
HDFS - Namenode进程状态异常 | |
HDFS - Secondary NameNode 进程状态异常 | |
HDFS - ZKFC进程状态异常 | |
Hive - Hive Metastore 进程状态异常 | |
Hive - Hivesever2进程状态异常 | |
HUE - Sever进程状态异常 | |
Impala - Catalogd 进程状态异常 | |
Impala - Impalad 进程状态异常 | |
Impala - Statestored 进程状态异常 | |
Kafka - Broker 进程状态异常 | |
Knox - Gateway进程状态异常 | |
Kudu - Master 进程状态异常 | |
Kudu - TServer 进程状态异常 | |
Kyuubi - Kyuubi进程状态异常 | |
MapReduce2 - HistoryServer 进程状态异常 | |
OpenLDap - Nss进程状态异常 | |
OpenLDap - Slapd进程状态异常 | |
OpenLDap - DashBoard进程状态异常 | |
OpenLDap - Sever进程状态异常 | |
Ossa - Gateway进程状态异常 | |
Ossa - Sever进程状态异常 | |
Presto - Coordinator 进程状态异常 | |
Presto - Worker 进程状态异常 | |
Pulsar - Manager进程状态异常 | |
Pulsar - Broker进程状态异常 | |
Ranger - Admin进程状态异常 | |
Ranger - UserSync进程状态异常 | |
Spark - Livy进程状态异常 | |
Spark - HistorySever进程状态异常 | |
StarRocks - BE 进程状态异常 | |
StarRocks - FE 进程状态异常 | |
Trino - Coordinator 进程状态异常 | |
Trino - Worker 进程状态异常 | |
YARN - ResourceManager 进程状态异常 | |
YARN - NodeManager 健康状况异常 | |
Zookeeper 进程状态异常 |