You need to enable JavaScript to run this app.
导航
推荐配置的告警规则
最近更新时间:2024.10.23 19:54:09首次发布时间:2024.04.01 15:24:35

流式计算 Flink版支持配置云监控告警规则,帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。

过去10 分钟内作业 Failover 次数 ≥ 2

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:过去 10 分钟内作业 Failover 次数
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:2

告警级别

警告

  • 处理建议
    观察作业是否自行恢复,告警是否持续,查看 JM & TM 日志排查作业重启原因。

作业失败状态 ≥ 1

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业失败状态
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

  • 处理建议
    查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。

作业完成状态 ≥ 1

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业完成状态
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

通知

  • 处理建议
    该告警标识了(批)作业执行完毕,若为流式作业触发该告警请联系技术支持人员定位。

作业失败自动拉起 ≥ 1

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:作业失败 GTS 自动拉起
  • 持续周期:1
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

  • 处理建议
    • 查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
    • 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。

作业 Checkpoint 失败次数 ≥ 1

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:
    • 过去 5 分钟内作业 Checkpoint 失败次数
    • 过去 10 分钟内作业 Checkpoint 失败次数
    • 过去 15 分钟内作业 Checkpoint 失败次数
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:1

告警级别

警告

说明

建议配置的周期大于作业的 Checkpoint 间隔,避免报警误报。比如 Checkpoint 间隔为 10min,则推荐配置过去 15 分钟内作业 Checkpoint 失败次数 >= 1。如果Checkpoint 间隔为 1min,则推荐配置过去 5 分钟内作业 Checkpoint 失败次数 >= 1。

  • 处理建议
    • 查看 Flink UI 是否存在算子反压,如果反压,优先解决反压问题,解决后,再观察 checkpoint 是否失败,因为大部分 checkpoint 失败都是由于反压导致的。
    • 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。

业务延迟 ≥ 15 min

  • 告警规则配置

Image

配置

取值

维度

作业运行状态

触发条件

  • 监控指标:业务延迟
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>=
  • 阈值:15(min)(说明:建议根据作业实时性要求,配置合适的阈值)

告警级别

警告

说明

当前仅支持在 Flink 1.16 引擎、使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中,支持配置业务延迟指标监控告警。

  • 处理建议
    • 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
    • 查看 TM & JM,排查错误信息。

Max KafkaConsumer Records Lag > 100 万

  • 告警规则配置

Image

配置

取值

维度

Kafka

触发条件

  • 监控指标:
    • Max KafkaConsumer Records Lag v16(说明:Flink 1.16 的 Kafka lag 指标)
    • Max KafkaConsumer Records Lag v11(说明:Flink 1.11 的 Kafka lag 指标)
  • 持续周期:3
  • 取值方式:最大值
  • 比较方式:>
  • 阈值:100 万(说明:建议根据 Source QPS 来配置合适的阈值

告警级别

警告

  • 处理建议
    • 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
    • 查看 TM & JM,排查错误信息。