报警功能检测指标值或watchdog事件,满足配置条件时发送报警消息。通过报警任务,您可以监测目标服务的配置项指标的异常情况,并及时收到通知,帮助您关注服务的健康状况。
基础指标:接入APMPlus Server Agent,完成对主机、容器、进程的监控。
服务指标:服务接入APMPlus、Skywalking、OpenTelemetry、Jaeger、Zipkin等应用监控能力。
自定义指标:接入APMPlus、OpenTelemetry、Prometheus等自定义打点能力。
当报警频繁产生,以至于每次运行报警规则都会触发报警时,为了降低无效报警对您的打扰,避免报警风暴,您可以通过配置报警发送策略控制报警通知发送频率,并过滤可能的数据突刺。
规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期。
报警通知的时间为:1分钟,4(1+3)分钟,7(1+3+3)分钟,10(1+3+3+3)分钟,...
规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期,一个发送周期内触发2次则第2次发送报警(毛刺过滤)。
报警通知的时间为:2分钟,5(2+3)分钟,8(2+3+3)分钟,11(2+3+3)分钟,...
规则运行频率:1分钟/次,发送策略:3分钟为一个发送周期,一个发送周期内触发2次则第2次发送报警(毛刺过滤),打开发送降频,报警批次聚合间隔:5分钟。
报警通知的时间为:2分钟,5(2+3)分钟,11(2+3+6)分钟,23(2+3+6+12)分钟,...
聚合情况为:2分钟、5分钟发送的报警聚合为一个报警组,11分钟发送的报警为一个报警组,23分钟发送的报警为一个报警组。
综上所述,把发送周期设为d,毛刺设为k,就可以得到报警通知通用的计算方式:
报警通知的时间为:k,k+20d,k+21d,k+22d,...
其中,通知间隔不能超过60分钟。如果超过的话,按照60分钟为通知间隔发送通知。
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,单击创建报警任务。
在新建报警任务页面,完成配置,然后单击保存。
配置项说明如下所示:
配置区域 | 配置项 | 说明 |
---|---|---|
基本信息 | 报警任务名称 | 自定义名称,用于标识报警任务。 |
报警策略 | 报警类型 | 已支持的报警类型:服务、自定义指标、主机、进程、容器和WatchDog。 |
报警级别 | 报警级别支持多选,支持对不同的指标值设置不同的报警级别。
| |
报警引擎 | 阈值引擎。 | |
多策略关系 | 当配置多个策略关系时,可以配置策略之间的关系。
| |
报警触发策略 |
| |
所属服务 | 选择所属服务。 | |
自定义tag | 自定义tag和取值。可以在告警列表根据tag进行筛选。 | |
报警验证 | 选择触发报警的时间点,验证报警任务是否按预期生成。 | |
报警发送策略 | 规则运行频率 | 设置规则每几分钟/次的运行频率。默认为1分钟/次。 |
发送策略 |
| |
发送降频 | 打开时,如报警连续触发则发送间隔会逐步衰减变长。 | |
报警批次聚合间隔 | 设置将间隔不超过n分钟的报警聚合。
| |
通知方式 | 报警方式 | 支持通过飞书、邮件、webhook进行报警。 webhook配置详见如何进行webhook配置?。 |
报警说明 | 报警说明 | 输入报警说明。 |
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,找到目标报警任务,在其右侧操作列,单击编辑。
在编辑报警任务页面,修改配置,然后单击保存。
配置项说明,请参见创建报警任务。
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,找到目标报警任务,在其右侧操作列,单击复制。
在新建报警任务页面,修改配置,然后单击保存。
配置项说明,请参见创建报警任务。
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,找到目标报警任务,在其右侧操作列,单击删除。
在确定删除对话框中,单击确定。
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,查看报警任务。
报警任务集中展示所有报警配置,所有告警任务均可以在此页面查看和管理,支持对状态和类型进行筛选。
列表内容包括任务名称,报警类型、报警规则摘要、报警方式、最近一个月报警次数、状态以及操作栏。其中操作栏支持开关、编辑、复制和删除报警任务。
在左侧导航栏,单击服务端监控。
选择开服region。
单击服务端监控旁边的点击进入服务端列表。
在控制台左上角选择全部功能 > 报警任务。
在报警任务页面,单击报警任务名称进入报警详情页。
详情页分为报警规则摘要、报警趋势图和报警历史三部分。
报警规则摘要:展示报警规则及运行状态,可开关、编辑和ACK该报警任务。
报警趋势图:展示该报警任务检测的指标趋势图,如果触发告警则途中有红点展示。
报警历史:展示触发告警的发送时间、规则快照、报警指标值和当次报警的通知方式。