推荐配置的告警规则--流式计算 Flink版-火山引擎

文档中心

导航

推荐配置的告警规则

最近更新时间：2024.10.23 19:54:09首次发布时间：2024.04.01 15:24:35

流式计算 Flink版支持配置云监控告警规则，帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例，建议参考这些推荐的告警策略进行配置。

过去10 分钟内作业 Failover 次数 ≥ 2

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：过去 10 分钟内作业 Failover 次数持续周期：3 取值方式：最大值比较方式：>= 阈值：2
告警级别	警告

处理建议
观察作业是否自行恢复，告警是否持续，查看 JM & TM 日志排查作业重启原因。

作业失败状态 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业失败状态持续周期：3 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告

处理建议
查看 TM & JM 日志。若日志中包含业务相关报错堆栈，需自行判断作业自动拉起后能否恢复；否则请提工单向技术支持人员反馈。

作业完成状态 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业完成状态持续周期：1 取值方式：最大值比较方式：>= 阈值：1
告警级别	通知

处理建议
该告警标识了（批）作业执行完毕，若为流式作业触发该告警请联系技术支持人员定位。

作业失败自动拉起 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：作业失败 GTS 自动拉起持续周期：1 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告

处理建议
- 查看 TM & JM 日志。若日志中包含业务相关报错堆栈，需自行判断作业自动拉起后能否恢复；否则请提工单向技术支持人员反馈。
- 观察告警是否持续。若只是偶现，且对业务无影响，则可以忽略，否则处理同上。

作业 Checkpoint 失败次数 ≥ 1

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：过去 5 分钟内作业 Checkpoint 失败次数过去 10 分钟内作业 Checkpoint 失败次数过去 15 分钟内作业 Checkpoint 失败次数持续周期：3 取值方式：最大值比较方式：>= 阈值：1
告警级别	警告
说明	建议配置的周期大于作业的 Checkpoint 间隔，避免报警误报。比如 Checkpoint 间隔为 10min，则推荐配置过去 15 分钟内作业 Checkpoint 失败次数 >= 1。如果Checkpoint 间隔为 1min，则推荐配置过去 5 分钟内作业 Checkpoint 失败次数 >= 1。

处理建议
- 查看 Flink UI 是否存在算子反压，如果反压，优先解决反压问题，解决后，再观察 checkpoint 是否失败，因为大部分 checkpoint 失败都是由于反压导致的。
- 观察告警是否持续。若只是偶现，且对业务无影响，则可以忽略，否则处理同上。

业务延迟 ≥ 15 min

告警规则配置

配置	取值
维度	作业运行状态
触发条件	监控指标：业务延迟持续周期：3 取值方式：最大值比较方式：>= 阈值：15（min）（说明：建议根据作业实时性要求，配置合适的阈值）
告警级别	警告
说明	当前仅支持在 Flink 1.16 引擎、使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中，支持配置业务延迟指标监控告警。

处理建议
- 观察数据曲线中资源是否达到瓶颈，考虑扩容，并观察告警是否持续。
- 查看 TM & JM，排查错误信息。

Max KafkaConsumer Records Lag > 100 万

告警规则配置

配置	取值
维度	Kafka
触发条件	监控指标： Max KafkaConsumer Records Lag v16（说明：Flink 1.16 的 Kafka lag 指标） Max KafkaConsumer Records Lag v11（说明：Flink 1.11 的 Kafka lag 指标）持续周期：3 取值方式：最大值比较方式：> 阈值：100 万（说明：建议根据 Source QPS 来配置合适的阈值）
告警级别	警告

处理建议
- 观察数据曲线中资源是否达到瓶颈，考虑扩容，并观察告警是否持续。
- 查看 TM & JM，排查错误信息。