您可以设置任务告警规则,用来监控 DataSail 实时同步任务和 DataSail 解决方案全增量同步中增量任务的状态,以及时发现问题,避免业务影响。
您可以在 DataLeap > 运维中心 > 报警监控中对实时同步任务设置报警规则,其中包含的报警指标包括:任务执行状态、数据源 Topic lag、Flink failover 次数等。
应用场景:通过任务状态来判断实时同步任务是否异常。
配置建议:建议所有实时同步任务均配置。
操作说明:详见报警监控。
应用场景:通过获取 Kafka 等源端的消费延迟数据量来监控 Topic lag 的趋势。
配置建议:建议 Kafka 源端、RMQ 源端、BMQ 源端的重要实时同步任务配置均配置。
操作说明:Kafka 源端、RMQ 源端、BMQ 源端可在 DataLeap 运维界面上直接配置监控,仅在数据集成新版资源组生效。操作说明见报警监控。
应用场景:当实时集成同步进程发生异常退出时,为提升可靠性,DataSail 服务会重新自动重试,进而提升同步进程可靠性,默认自动重试 3次。
配置建议:如果关注任务 Failover 信息,您可以在报警监控中配置 Failover 指标相关告警,感知同步任务是否存在异常频繁发生 Failover。仅在数据集成新版资源组生效。
操作说明:详见报警监控。
包含的报警指标包括:任务执行状态、数据源Binlog投递延时、Flink failover次数。
应用场景:通过对 Binlog 投递延时来提前发现延时问题。
配置建议:建议重要的实时整库同步解决方案、分库分表实时同步解决方案的实时任务都进行配置。
操作说明:请到云产品监控 > 搜索全域数据集成 > 创建告警策略,进行“Binlog投递延迟”的告警规则设置。
操作说明:详见创建告警策略。
同实时任务报警设置最佳实践,详见指标1:任务执行状态。
同实时任务报警设置最佳实践,详见指标3:Failover 次数。