推荐配置的告警规则--云搜索服务-火山引擎

文档中心

导航

推荐配置的告警规则

最近更新时间：2024.11.04 18:10:26首次发布时间：2024.02.27 17:45:24

云搜索服务支持配置云监控告警规则，帮助您实时关注实例、索引、节点的运行状态。本文档介绍一些告警规则配置示例，建议参考这些推荐的告警策略进行配置。

使用建议

目前云搜索服务产品已经支持一键告警功能，推荐您使用一键告警。
当您需要特定为某个监控指标配置告警策略时，可查看本文的告警策略设置信息。

在云监控配置告警策略后，被监控的资源数据达到告警的触发条件时，系统会通过您指定的方式推送告警通知，便于您及时发现存在异常的资源。

配置	说明
告警级别+通知方式	建议配置两种级别的告警策略。严重-电话告警：表示这类告警比较紧急，收到电话通知后需要及时处理。警告-短信告警：相对没那么紧急的告警，但也是需要处理的，不然可能演变成紧急告警。
持续周期数	需要持续监控数据的周期数。持续周期数越短，能越早发现问题，但也有可能因瞬时抖动造成干扰告警。
告警触发阈值	根据业务场景按需配置告警触发阈值。
告警渠道	根据业务场景按需配置告警通知渠道，支持电话、短信、邮箱等通知方式。

当索引的主副 Shard 均未恢复，索引的状态为 Red，此时读写该 Shard 的请求都会失败。
推荐配置：在持续 3 个周期内，Red 状态索引数量的平均值大于 1 时，触发严重-电话告警。

当索引的副本没有完全恢复时，索引状态显示为 Yellow。
推荐配置：在持续 3 个周期内，Yellow 状态索引数量的平均值大于 1 时，触发警告-短信告警。

在节点维度中，支持为节点 CPU 使用率配置告警策略。
在下列场景中，建议参考以下配置：

对于在线搜索的场景：在持续 1 个周期内，节点 CPU 使用率的最大值大于 60% 时触发严重-电话告警；使用率的最大值大于 50% 时触发警告-短信告警。
对于日志等场景：在持续 1 个周期内，节点 CPU 使用率的最大值大于 80% 时触发严重-电话告警；使用率的最大值大于 70% 时触发警告-短信告警。

一般情况下，出现老年代 GC 表示内存不足。如果短时间内出现多次老年代 GC，需要考虑是否需要升配实例。
建议配置如下两种级别告警策略：

集群磁盘最大利用率达到 90% 是一种非常高风险的状态。默认磁盘最大利用率达到 95% 就会停写。
建议配置如下两种级别的告警策略：

使用标准版-高性能云盘-pl0（ESSD-PL0）存储的实例，如果节点磁盘读和写带宽之和大于180MiB/s，将有可能触发限流。
建议按照以下配置创建两种级别的告警策略：