流式计算 Flink版支持配置云监控告警规则,帮助您实时关注任务的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。
过去10 分钟内作业 Failover 次数 ≥ 2
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:过去 10 分钟内作业 Failover 次数
- 持续周期:3
- 取值方式:最大值
- 比较方式:>=
- 阈值:2
|
告警级别 | 警告 |
- 处理建议
观察作业是否自行恢复,告警是否持续,查看 JM & TM 日志排查作业重启原因。
作业失败状态 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业失败状态
- 持续周期:3
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
- 处理建议
查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
作业完成状态 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业完成状态
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 通知 |
- 处理建议
该告警标识了(批)作业执行完毕,若为流式作业触发该告警请联系技术支持人员定位。
作业失败自动拉起 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:作业失败 GTS 自动拉起
- 持续周期:1
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
- 处理建议
- 查看 TM & JM 日志。若日志中包含业务相关报错堆栈,需自行判断作业自动拉起后能否恢复;否则请提工单向技术支持人员反馈。
- 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。
作业 Checkpoint 失败次数 ≥ 1
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:
- 过去 5 分钟内作业 Checkpoint 失败次数
- 过去 10 分钟内作业 Checkpoint 失败次数
- 过去 15 分钟内作业 Checkpoint 失败次数
- 持续周期:3
- 取值方式:最大值
- 比较方式:>=
- 阈值:1
|
告警级别 | 警告 |
说明 | 建议配置的周期大于作业的 Checkpoint 间隔,避免报警误报。比如 Checkpoint 间隔为 10min,则推荐配置过去 15 分钟内作业 Checkpoint 失败次数 >= 1。如果Checkpoint 间隔为 1min,则推荐配置过去 5 分钟内作业 Checkpoint 失败次数 >= 1。 |
- 处理建议
- 查看 Flink UI 是否存在算子反压,如果反压,优先解决反压问题,解决后,再观察 checkpoint 是否失败,因为大部分 checkpoint 失败都是由于反压导致的。
- 观察告警是否持续。若只是偶现,且对业务无影响,则可以忽略,否则处理同上。
业务延迟 ≥ 15 min
配置 | 取值 |
---|
维度 | 作业运行状态 |
触发条件 | - 监控指标:业务延迟
- 持续周期:3
- 取值方式:最大值
- 比较方式:>=
- 阈值:15(min)(说明:建议根据作业实时性要求,配置合适的阈值)
|
告警级别 | 警告 |
说明 | 当前仅支持在 Flink 1.16 引擎、使用 Kafka/MySQL CDC /Mongo CDC Source 的场景中,支持配置业务延迟指标监控告警。 |
- 处理建议
- 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
- 查看 TM & JM,排查错误信息。
Max KafkaConsumer Records Lag > 100 万
配置 | 取值 |
---|
维度 | Kafka |
触发条件 | - 监控指标:
- Max KafkaConsumer Records Lag v16(说明:Flink 1.16 的 Kafka lag 指标)
- Max KafkaConsumer Records Lag v11(说明:Flink 1.11 的 Kafka lag 指标)
- 持续周期:3
- 取值方式:最大值
- 比较方式:>
- 阈值:100 万(说明:建议根据 Source QPS 来配置合适的阈值)
|
告警级别 | 警告 |
- 处理建议
- 观察数据曲线中资源是否达到瓶颈,考虑扩容,并观察告警是否持续。
- 查看 TM & JM,排查错误信息。