You need to enable JavaScript to run this app.
导航
推荐配置的告警规则
最近更新时间:2024.12.13 16:30:24首次发布时间:2023.09.13 14:23:59

消息队列 RabbitMQ版支持配置云监控告警规则,帮助您实时关注实例的运行状态。本文档介绍典型场景下的告警规则配置示例,建议参考这些推荐的告警策略,配置监控指标的告警规则。

实例维度

实例磁盘使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:磁盘使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    通知

    示例如下:
    Image

  • 处理建议
    触发告警后,建议观察实例的磁盘使用率是否持续处于高位。

    • 如果是短暂的业务高峰,则可以持续观察。
    • 如果磁盘使用率持续升高,建议及时扩容磁盘,降低磁盘使用率。扩容磁盘的方式请参考升级实例规格
      处理后建议持续观测该指标,确认是否达到了预期效果。

实例内存使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:内存使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,建议观察实例的内存使用率是否持续处于高位。

    • 如果是短暂的业务高峰,则可以持续观察。
    • 如果内存使用率持续升高,建议及时升级实例规格,降低内存使用率。升级实例规格的方式请参考升级实例规格
      处理后建议持续观测该指标,确认是否达到了预期效果。

实例CPU使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:实例CPU使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,建议及时升级实例规格,降低 CPU 使用率。如果已经是最高规格,则推荐扩容存储空间。详细操作请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

实例连接数过多

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:连接数
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:推荐设置为实例当前计算规格最大连接数的 90%,每个规格的最大连接数请参考产品规格

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,您可以先查看监控,判断实例的连接数是否持续维持高位状态。如果只是偶现的峰值,建议持续观察。如果实例连接数长时间维持在高位,则建议通过以下方式排查。

    • 优化应用程序的使用方式,确保每个连接上都只有必要的 channel 被打开,并尽可能地复用 channel,以此控制连接数量。
    • 清理长时间处于未使用状态的连接和 channel。如果存在大量未使用的连接和 channel,可以考虑关闭连接,降低连接数量。

处理后建议持续观测该指标,确认是否达到了预期效果。

实例队列数使用过多

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:队列数
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:根据业务需求自定义设置,推荐设置为当前规格最大队列数量的 90%。每个规格的最大队列数量请参考产品规格

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,建议清理冗余或可删除的队列。如不存在可删除队列,且仍然需要持续创建新的队列,则建议及时扩容实例的计算规格,以此增加可用队列数量。升级实例规格的方式请参考升级实例规格
    处理后建议持续观测该指标,确认是否达到了预期效果。

实例生产消费速率过高

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:实例生产消费速率
    • 持续周期:3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:根据业务需求自定义设置,推荐设置为当前规格推荐 TPS 峰值的 90%。每个规格的推荐 TPS 峰值请参考产品规格

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,说明实例目前的水位已经快达到该实例规格的上限,如果继续上涨可能会影响业务的稳定性,建议升级实例规格,升级实例规格的方式请参考升级实例规格
    处理后建议持续观测该指标,确认是否达到了预期效果。

Unroutable 消息速率

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:Unroutable消息速率
    • 持续周期:3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:大于0

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,说明有生产者发布消息到 exchange 时,没有匹配的队列,即消息无法被路由到任何队列,交换机会直接丢弃或者将未被路由的消息返回给生产者,导致消息发送不成功,建议检查生产者配置。

消息堆积

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:可消费消息数
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:根据业务需求自定义设置

    告警级别

    通知

    示例如下:
    Image

  • 处理建议
    触发告警后,建议观察实例的磁盘使用率是否持续处于高位。

    • 如果是短暂的业务高峰,则可以持续观察。
    • 如消息长时间内大量堆积,建议参考各个指标排查消息堆积的原因,例如查看生产速率是否远大于消费速率等。确认消息堆积原因后,可以通过以下方式缓解消息堆积的情况:
      • 增加消费者:增加消费者可以提高消息消费的速度,缓解消息积压问题。
      • 扩容队列:可以通过增加队列容量来缓解消息积压问题,但这种方法可能会导致占用更多的实例资源。
        处理后建议持续观测该指标,确认是否达到了预期效果。

节点在线率小于 100%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:节点在线率
    • 持续周期:持续3个周期
    • 取值方式:最小值
    • 比较方式:<
    • 阈值:100%

    告警级别

    严重

    示例如下:
    Image

  • 处理建议
    触发告警后,表示实例中存在意外掉线的故障节点,建议联系客户经理协助排查故障。

节点维度

节点磁盘使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:磁盘使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,建议观察节点的磁盘使用率是否持续处于高位,并检查消费逻辑。

    • 如果是短暂的业务高峰,则可以持续观察。
    • 如果磁盘使用率持续升高,建议及时扩容磁盘,降低磁盘使用率。扩容磁盘的方式请参考升级实例规格
    • 如果消费能力不足,导致大量消息堆积,也会造成磁盘使用率高,推荐检查消费状态与进度是否符合预期。
      处理后建议持续观测该指标,确认是否达到了预期效果。

节点内存使用率超过 85%

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    实例

    触发条件

    • 监控指标:内存使用率
    • 持续周期:持续3个周期
    • 取值方式:最大值
    • 比较方式:>
    • 阈值:85%

    告警级别

    警告

    示例如下:
    Image

  • 处理建议
    触发告警后,建议及时升级实例规格,降低内存使用率。如果已经是最高规格,则推荐扩容存储空间。详细操作请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

节点内存高水位

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:节点内存高水位
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>=
    • 阈值:1

    告警级别

    严重

    示例如下:
    Image

  • 处理建议
    触发告警表示实例单节点的可用内存使用率达到 100% (相当于实际物理内存达到 40%),后端服务会自动暂停数据写入,建议及时升级实例规格,降低内存使用率。如果已经是最高规格,则推荐扩容存储空间。详细操作请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。

节点磁盘高水位

  • 告警规则配置
    告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则

    配置

    取值

    维度

    节点

    触发条件

    • 监控指标:磁盘高水位
    • 持续周期:持续1个周期
    • 取值方式:最大值
    • 比较方式:>=
    • 阈值:1

    告警级别

    严重

    示例如下:
    Image

  • 处理建议
    触发告警表示实例单节点的磁盘使用率已达 100%,后端服务会自动暂停数据写入,建议及时扩容存储空间。详细操作请参考升级实例规格。处理后建议持续观测该指标,确认是否达到了预期效果。