云搜索服务支持配置云监控告警规则,帮助您实时关注实例、索引、节点的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。
目前云搜索服务产品已经支持一键告警功能,推荐您使用一键告警。
当您需要特定为某个监控指标配置告警策略时,可查看本文的告警策略设置信息。
在云监控配置告警策略后,被监控的资源数据达到告警的触发条件时,系统会通过您指定的方式推送告警通知,便于您及时发现存在异常的资源。
配置 | 说明 |
---|---|
告警级别+通知方式 | 建议配置两种级别的告警策略。
|
持续周期数 | 需要持续监控数据的周期数。 |
告警触发阈值 | 根据业务场景按需配置告警触发阈值。 |
告警渠道 | 根据业务场景按需配置告警通知渠道,支持电话、短信、邮箱等通知方式。 |
当索引的主副 Shard 均未恢复,索引的状态为 Red,此时读写该 Shard 的请求都会失败。
推荐配置:在持续 3 个周期内,Red 状态索引数量的平均值大于 1 时,触发严重-电话告警。
当索引的副本没有完全恢复时,索引状态显示为 Yellow。
推荐配置:在持续 3 个周期内,Yellow 状态索引数量的平均值大于 1 时,触发警告-短信告警。
在节点维度中,支持为节点 CPU 使用率配置告警策略。
在下列场景中,建议参考以下配置:
一般情况下,出现老年代 GC 表示内存不足。如果短时间内出现多次老年代 GC,需要考虑是否需要升配实例。
建议配置如下两种级别告警策略:
集群磁盘最大利用率达到 90% 是一种非常高风险的状态。默认磁盘最大利用率达到 95% 就会停写。
建议配置如下两种级别的告警策略:
使用标准版-高性能云盘-pl0(ESSD-PL0)存储的实例,如果节点磁盘读和写带宽之和大于180MiB/s,将有可能触发限流。
建议按照以下配置创建两种级别的告警策略: