推荐配置的告警规则--消息队列 Kafka版-火山引擎

文档中心

立即注册

导航

推荐配置的告警规则

最近更新时间：2024.08.27 16:10:28首次发布时间：2023.09.13 14:24:12

消息队列 Kafka版支持配置云监控告警规则，帮助您实时关注实例的运行状态。本文档介绍典型场景下的告警规则配置示例，建议参考这些推荐的告警策略，配置监控指标的告警规则。

实例维度

实例磁盘使用容量超过 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件 1
监控指标：容量使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：85%
告警级别
通知
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 清理磁盘空间。您可以缩短 Topic 的消息保留时长，促使消息尽快过期，以此来清理磁盘空间。操作步骤请参考修改 Topic 配置。
- 扩容实例磁盘。为了避免实例磁盘超限，触发实例的消息自动删除策略，建议及时扩容实例磁盘，增加存储空间。操作步骤请参考升级实例规格。

实例磁盘使用容量超过 30% 且磁盘倾斜率超过 30%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
指标类型	多指标
触发条件 1	监控指标：容量使用率持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：30%
触发条件 2	监控指标：磁盘倾斜率持续周期：持续1个周期取值方式：最大值比较方式：> 阈值：30%
告警级别	通知

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 扩容实例磁盘。为了避免单个节点磁盘被写满、影响后续的数据写入，建议及时扩容实例磁盘，增加存储空间。操作步骤请参考升级实例规格。
- 排查业务侧的代码逻辑。调整数据写入方式，确保数据均衡写入到实例的各个节点。
- 数据再均衡。在数据再均衡的过程中，后端服务会检查集群中的所有 Broker 磁盘使用量差异，并参考其中的 Topic 分区流量差异，自动均衡所有 Broker 的数据，使不同 Broker 的磁盘使用量基本一致。操作步骤请参考数据再均衡。

实例生产流量超过规格上限的 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
触发条件	监控指标：消息生产速率持续周期：持续5个周期取值方式：最大值比较方式：> 阈值：当前规格流量峰值的 85%。各个规格的流量限制请参考产品规格。
告警级别	警告

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 如果是短暂的流量高峰，建议持续观察业务运行状态和资源水位。
- 如果流量持续抬升，则考虑升级实例规格。为了避免实例流量超限，导致生产受限、消息堆积，建议及时升级实例的计算规格，提高消息的生产和消费速率。操作步骤请参考升级实例规格。

实例消费流量超过规格上限的 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
触发条件	监控指标：消息消费速率持续周期：持续5个周期取值方式：最大值比较方式：> 阈值：当前规格流量峰值的 85%。各个规格的流量限制请参考产品规格。
告警级别	警告

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 如果是短暂的流量高峰，建议持续观察业务运行状态和资源水位。
- 如果流量持续抬升，则考虑升级实例规格。为了避免实例流量超限，导致生产受限、消息堆积，建议及时升级实例的计算规格，提高消息的生产和消费速率。操作步骤请参考升级实例规格。

消息生产 P99 耗时过高

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件
监控指标：消息生产P99耗时
持续周期：持续1个周期
取值方式：最大值
比较方式：>
阈值：100ms
告警级别
严重
示例如下：
处理建议
触发告警后，建议检查客户端的参数配置，并设置合理的客户端参数。处理后建议持续观测该指标，确认是否达到了预期效果。

消息消费 P99 耗时过高

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件
监控指标：消息消费P99耗时
持续周期：持续1个周期
取值方式：最大值
比较方式：>
阈值：1s
告警级别
警告
示例如下：
处理建议
触发告警后，建议及时查看业务端的消费逻辑，判断是否有影响消费速度的原因存在。处理后建议持续观测该指标，确认是否达到了预期效果。

CPU 使用率超过 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件
监控指标：CPU使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：85%
告警级别
警告
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 判断是否由客户端引起，例如以下客户端侧的问题可能导致 CPU 占用率高：
  - Kakfa 版本切换、客户端 kafka 版本和服务端实例版本不一致。
  - 请求数多，但生产者的 batch.size 小，或设置了同步生产方式。
  - 压缩策略为 LZ4。
- 如果确认非客户端问题导致的 CPU 占用率高，建议及时升级实例规格以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标，确认是否达到了预期效果。

内存使用率超过 95%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件
监控指标：内存使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：95%
告警级别
警告
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 如果是短暂的业务高峰，建议持续观察业务运行状态和资源水位。
- 检查实例是否已达到当前计算规格的各个阈值，例如 TPS 等。如果任意一项规格限制达到了计算规格的最大限制，则推荐升级实例规格，以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标，确认是否达到了预期效果。

IP 连接数过高

说明

每个 Kafka 实例的 IP 连接数上限为 20000，推荐设置 IP 连接数超过 90% 的告警。

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
实例
触发条件
监控指标：IP 连接数
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：18000
告警级别
通知
示例如下：
处理建议
触发告警后，建议根据业务需求合理设置 IP 连接数。处理后建议持续观测该指标，确认是否达到了预期效果。

实例剩余可用分区数不足

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
触发条件	监控指标：剩余可用分区数持续周期：持续1个周期取值方式：最小值比较方式：< 阈值：根据业务需求自行设置，推荐设置为 50。
告警级别	如果通常通过控制台创建 Topic，推荐设置为通知。如果通常通过 OpenAPI 创建 Topic，推荐设置为警告。

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 清理闲置资源。检查是否存在未使用的闲置分区，如果有，建议及时清理。
- 如果清理后仍旧触发此告警，则考虑购买更多分区，或升级实例规格。业务高峰时分区数量会在短期内快速增加，为了避免分区数量不足影响实例的业务处理带宽，建议提前购买分区或升级实例规格，预留足够的分区数量。操作步骤请参考升级实例规格。

实例剩余可用消费组数不足

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
触发条件	监控指标：剩余可用消费组数持续周期：持续1个周期取值方式：最小值比较方式：< 阈值：根据业务需求自行设置，推荐设置为 50。
告警级别	如果通常通过控制台创建 Group，推荐设置为通知。如果通常通过 OpenAPI 或自动创建 Group，推荐设置为警告。

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 清理闲置资源。检查是否存在未使用的闲置消费组，如果有，建议及时清理。您也可以开启自动删除 Group 功能，后端会自动清理闲置的 Group 资源，详细信息请参考修改参数配置和删除 Group。
- 如果清理后仍旧触发此告警，则考虑购买更多分区，或升级实例规格。业务高峰时分区数量会在短期内快速增加，为了避免分区数量不足影响实例的业务处理带宽，建议提前购买分区或升级实例规格，预留足够的分区数量。操作步骤请参考升级实例规格。

节点在线率低于 90%

一般来说，当实例的节点在线率小于 100%，都应该排查原因。
但是在日常运维中，存在因为实例升级触发滚动重启的情况，此时实例的可用性并不会下降。因此，如果需要为节点在线率配置告警规则，建议配置为节点在线率低于 90% 时，触发告警。

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	实例
触发条件	监控指标：节点在线率持续周期：持续5个周期取值方式：最小值比较方式：< 阈值：根据业务需求自行设置，推荐设置为 90%。
告警级别	严重

示例如下：

处理建议
出现节点在线率低于 90% 的告警时，建议先观察实例和业务情况。如果节点在线率长时间未恢复，请联系技术支持或提交工单。

节点维度

节点磁盘使用率超过 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：磁盘使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：85%
告警级别
通知
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 清理磁盘空间。您可以缩短 Topic 的消息保留时长，促使消息尽快过期，以此来清理磁盘空间。操作步骤请参考修改 Topic 配置。
- 扩容实例磁盘。为了避免实例磁盘超限，触发实例的消息自动删除策略，建议及时扩容实例磁盘，增加存储空间。操作步骤请参考升级实例规格。
- 如果仅部分节点磁盘使用率超出阈值，且实例磁盘倾斜率数值高，表示存在节点之间数据不均衡的现象。建议参考数据再均衡均衡各个节点的数据。

配置	取值
维度	节点
触发条件	监控指标：磁盘使用率持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：85%
告警级别	通知

消息生产 P99 耗时过高

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：消息生产P99耗时
持续周期：持续1个周期
取值方式：最大值
比较方式：>
阈值：100ms
告警级别
严重
示例如下：
处理建议
触发告警后，建议检查客户端的参数配置，并设置合理的客户端参数。处理后建议持续观测该指标，确认是否达到了预期效果。

配置	取值
维度	节点
触发条件	监控指标：消息生产P99耗时持续周期：持续1个周期取值方式：最大值比较方式：> 阈值：100ms
告警级别	严重

消息消费 P99 耗时过高

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：消息消费P99耗时
持续周期：持续1个周期
取值方式：最大值
比较方式：>
阈值：1s
告警级别
警告
示例如下：
处理建议
触发告警后，建议及时查看业务端的消费逻辑，判断是否有影响消费速度的原因存在。处理后建议持续观测该指标，确认是否达到了预期效果。

配置	取值
维度	节点
触发条件	监控指标：消息消费P99耗时持续周期：持续1个周期取值方式：最大值比较方式：> 阈值：1s
告警级别	警告

CPU 使用率超过 85%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：CPU使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：85%
告警级别
警告
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 判断是否由客户端引起，例如以下客户端侧的问题可能导致 CPU 占用率高：
  - Kakfa 版本切换、客户端 kafka 版本和服务端实例版本不一致。
  - 请求数多，但生产者的 batch.size 小，或设置了同步生产方式。
  - 压缩策略为 LZ4。
- 如果确认非客户端问题导致的 CPU 占用率高，建议及时升级实例规格以便提高实例的各项处理性能。操作步骤请参考升级实例规格。处理后建议持续观测该指标，确认是否达到了预期效果。

配置	取值
维度	节点
触发条件	监控指标：CPU使用率持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：85%
告警级别	警告

内存使用率超过 95%

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：内存使用率
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：95%
告警级别
警告
示例如下：
处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 如果是短暂的业务高峰，建议持续观察业务运行状态和资源水位。
- 检查实例是否已达到当前计算规格的各个阈值，例如 TPS 等。如果任意一项规格限制达到了计算规格的最大限制，则推荐升级实例规格，以便提高实例的各项处理性能。操作步骤请参考升级实例规格。

配置	取值
维度	节点
触发条件	监控指标：内存使用率持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：95%
告警级别	警告

节点连接数过高

说明

每个 Kafka 实例的 IP 连接数上限为 20000，推荐设置 IP 连接数超过 90% 的告警。

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
节点
触发条件
监控指标：节点连接数
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：18000
告警级别
通知
示例如下：
处理建议
触发告警后，建议根据业务需求合理设置 IP 连接数。处理后建议持续观测该指标，确认是否达到了预期效果。

配置	取值
维度	节点
触发条件	监控指标：节点连接数持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：18000
告警级别	通知

分区堆积维度

分区消息堆积

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	分区
触发条件	监控指标：分区消息堆积量持续周期：持续1个周期取值方式：最大值比较方式：> 阈值：根据业务需求自定义设置
告警级别	警告

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 查看实例流量是否已接近规格上限，判断是否需要紧急扩容，防止流量超出实例规格导致消息堆积。
- 排查生产环境，判断消费者客户端是否出现消费问题，导致消费堆积。如果确定是消费侧性能问题，及时扩容消费者或者提升单个消费者的消费性能。

消费组维度

消费组消息堆积

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。

配置	取值
维度	消费组
触发条件	监控指标：消费组消息堆积量持续周期：持续3个周期取值方式：最大值比较方式：> 阈值：根据业务需求自定义设置
告警级别	通知

示例如下：

处理建议
触发告警后，您可以通过以下方式处理。处理后建议持续观测该指标，确认是否达到了预期效果。
- 查看实例流量是否已接近规格上限，判断是否需要紧急扩容，防止流量超出实例规格导致消息堆积。
- 排查生产环境，判断消费者客户端是否出现消费问题，导致消费堆积。如果确定是消费侧性能问题，及时扩容消费者或者提升单个消费者的消费性能。

消费组重均衡次数大于 20

告警规则配置
告警规则的核心配置如下。创建告警规则的操作步骤请参考设置告警规则。
配置
取值
维度
消费组
触发条件
监控指标：消费组重均衡次数
持续周期：持续3个周期
取值方式：最大值
比较方式：>
阈值：20
告警级别
警告
示例如下：
处理建议
重均衡在消费者加入或者退出的时候触发，频繁的重均衡可能是由于消费者消费异常频繁重启导致，请查看消费者状态是否正常。
若在业务初始化或者重启过程中出现，可忽略该异常告警。