流式计算 Flink 版已经接入云监控服务,您可以在云监控平台配置告警策略,以及时识别资源异常状态并发送告警通知,提升运维效率。本文为您介绍在云监控平台如何配置告警策略,以及流式计算 Flink 版支持配置告警的 Metric 详情。
下表为您介绍流式计算 Flink 版支持配置告警的监控指标。
维度 | 指标名 | MetricName | 单位 |
---|---|---|---|
作业运行状态 | 作业 failed 或者是 recover 的时间长度(大于 0 为不在运行状态) | flink_jobmanager_job_downtime | Millisecond |
fullRestart 重启时刻 | flink_jobmanager_job_fullRestarts_memont | None | |
fullRestart 重启(差值) | flink_jobmanager_job_fullRestarts_difference | None | |
作业失败状态 | job_check_status_failed | Count | |
作业完成状态 | job_check_status_succeeded | Count | |
作业失败 GTS 自动拉起 | streamx_restart_job_count_gauge | Count | |
业务延迟 | flink_taskmanager_job_task_operator_currentEmitEventTimeLag | Millisecond | |
checkpoint | checkpoint 时长 | flink_jobmanager_job_lastCheckpointDuration | Millisecond |
check 失败次数 | flink_jobmanager_job_numberOfContinuousCheckpointFailure | Count | |
Kafka | Max KafkaConsumer Records Lag |
| Count |
登录云监控控制台。
在左侧导航栏选择告警中心 > 告警策略,然后单击创建告警策略。
在基本信息区域,设置告警策略名称和描述。
配置 | 说明 |
---|---|
名词 | 自定义告警策略名称,用于标识告警策略。 |
描述 | 告警策略的描述。 |
在告警对象区域,选择资源类型为数据中台 > 流式计算 Flink 版,然后根据实际情况选择地域、维度和资源。
配置 | 说明 |
---|---|
资源类型 | 选择数据中台 > 流式计算 Flink 版。 |
地域 | 根据您资源对象所在地域选择。 |
维度 | 创建告警策略的维度,目前支持作业运行状态、checkpoint、Kafka 和 flinkFiveMinsCounter 四个维度。 |
资源 | 确定设置告警策略的资源(作业)范围,支持以下两种设置方式:
|
在告警规则区域,选择指标类型,设置告警规则触发条件,告警级别、策略生效时间、告警发送周期等。
配置 | 说明 |
---|---|
使用预置触发条件 | 按照告警维度预先配置的触发条件,便于您快速填写告警策略。但 Flink 的维维度均没有预置触发条件,无需关注该参数。 |
指标类型 | 支持选择单指标或多指标。如果您需要监控资源的多个指标,可直接配置多指标类型。 |
触发条件 | 设置告警的监控指标、持续周期、统计类型、比较关系以及阈值。当被监控的资源指标达到触发条件时,系统会推送告警通知。
|
告警级别 | 用于标识告警的严重程度。支持设置严重、警告、通知。 |
生效时间 | 告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。 |
告警发送周期 | 触发告警策略后,如果被监控的资源仍然持续触发告警,则系统会周期性发送告警通知。 |
在告警方式区域,选择告警通知方式和告警通知组。
配置 | 说明 |
---|---|
告警渠道 | 选择一个或多个渠道。支持邮箱、电话、短信以及告警回调。 |
告警联系组 | 当告警渠道选择邮箱、电话或者短信中的一个或多个渠道时,您必须设置一个或多个联系组作为告警通知的接收方。 |
告警回调 | 当选择告警回调时,页面将展示告警回调文本框,您必须指定可用的 URL。 |
告警策略配置完成后,单击页面右下角的确定。
告警策略创建成功后,即自动启动。