云拨测告警基于多维度、多指标、智能基线对拨测任务进行实时异常检测,提供多种告警规则配置,您可以灵活调整、组合设置告警规则,通过云拨测告警管理,实现告警信息多渠道通知,确保及时发现并修复线上故障。
前提条件
- 已创建拨测任务,并且 任务状态 为 运行中。具体操作,请参考创建拨测任务。
- 已配置告警通知对象和通知方式。具体操作,请参考告警通知对象。
操作步骤
- 登录云拨测控制台。
- 在左侧菜单栏选择 告警管理 > 告警列表。在 告警列表 页面单击 创建告警。
- 在 创建告警 页面,依次完成以下配置:
- 配置基本信息
- 告警规则配置
- 通知规则配置
- 参数配置完成后,单击 创建告警。
您可以在 告警列表 页面看到您创建的告警,状态为 已启用。

配置说明
基本信息配置
配置项 | 说明 |
---|
告警名称 | 为创建的告警设置一个名称。支持 UTF-8 编码,不能超过 256 个字符。 |
任务类型 | 选择告警所关联的拨测任务类型。您可以选择: - HTTP(S)
- PING
- DNS
- TCP/UDP
- 文件传输
- 页面元素
|
拨测方式 | 任务所使用的拨测方式。 说明 当 任务类型 为 TCP/UDP 和 文件传输 时,需要设置拨测方式。 |
任务选择 | 您可以选择具体任务或任务组下的任务。 - 任务:从下拉菜单中选择一个任务。
- 任务组:从下拉菜单中选择一个任务组。任务组用于标识拨测任务,便于您快速查找、分析某一组的拨测任务。
|
告警规则配置
配置项 | 说明 |
---|
检测方式 | 您可以根据具体的需求和监控场景,选择合适的告警检测方式: - 固定阈值:固定阈值是一种静态的告警触发机制,其中阈值是预先设定的固定数值,指标值超出阈值则标记为异常。无论被监控指标如何变化,告警触发的条件都是基于这些固定数值。
- 动态阈值:动态阈值是一种更智能的告警触发机制,其中阈值是基于多种算法动态计算的,无需手动配置,实际值超出范围则会被标记异常。这种方法考虑了数据的自然波动和趋势,能够适应数据的变化。
如果您的监控指标相对稳定,且您对性能有明确的预期,固定阈值可能是一个简单有效的选择。如果您的监控指标波动较大,或者您希望告警系统能够自适应数据变化,动态阈值可能更适合您的需求。 |
触发条件-固定阈值 | 您可以根据需要设置告警触发条件,以便在特定的性能指标超出预设阈值时获得通知。 - 告警触发条件:
- 时间周期:最近的拨测周期数量,您可以设置的范围是1到6个周期。
- 触发频率:表示在所选周期内满足告警条件的次数,设置范围为1到6次。
- 任意:在所选周期内,只要有一次满足告警条件,就会触发告警。
- 连续:在所选周期内,需要连续多次满足告警条件,才会触发告警。
- 满足条件的类型
- 任一:只要有一个监控指标满足告警条件,就会触发告警。
- 所有:所有监控指标都必须满足告警条件,才会触发告警。
例如,假设您设置告警条件为“在最近5个拨测周期,任意 1 次满足以下 所有 条件则触发相应告警”:表示云拨测将检查任务最近的5个连续的拨测周期的数据,只要有任意1次的检测结果满足后续设定的告警条件,就会触发告警。
- 监控指标:从下拉列表,选择触发告警的监控指标。您可以请前往指标体系页面了解相关指标的具体定义。
- 告警阈值:
- 普通告警阈值:为所选监控指标设置普通告警的阈值。当监控数据达到或超过此阈值时,将触发普通级别的告警。
- 严重告警阈值:为所选监控指标设置严重告警的阈值。当监控数据达到或超过此阈值时,将触发严重级别的告警。严重告警的阈值应设置得比普通告警更严格,以区分告警的严重程度。
- 比较方式选择:对于每个监控指标,您可以选择以下任一阈值比较方式:
- 大于(>):监控数据大于阈值时触发告警。
- 大于等于(>=):监控数据大于或等于阈值时触发告警。
- 小于(<):监控数据小于阈值时触发告警。
- 小于等于(<=):监控数据小于或等于阈值时触发告警。
- 添加更多指标:您可以单击 添加指标,根据需要设置其他监控指标及其告警阈值。
|
触发条件-动态阈值 | - 监控周期:设定一个监控周期,系统将根据这个周期内的历史数据来动态计算阈值。
- 监控指标:目前只支持选择可用率。
例如,假设您选择了“可用率”作为监控指标,并设置了2分钟为一个监控周期。系统将分析过去2分钟内的可用率数据,计算出一个合理的阈值范围。如果在未来2分钟内,可用率数据超出了这个动态计算的阈值范围,系统将触发告警。 |
数据过滤 | 筛选出符合条件的拨测数据进行告警检测。
例如,当您需要针对特定的节点运营商设置告警阈值时,可以通过数据过滤来实现。从下拉列表选择 节点运营商 包含 "中国移动"。 |
分组检测 | - 不分组(默认):所有节点的拨测数据求平均值,对该值进行告警检测。这种方式适用于整体性能监控,但可能无法反映局部问题。
- 分组监控:将数据按照特定的维度进行分组,然后对每个分组的数据单独进行告警检测。这种方法可以帮助您更细致地了解不同分组的性能表现,从而更有效地识别和解决问题。
- 支持的分组维度:
- 国家
- 节点国家-省份
- 节点国家-省份-运营商
- 节点运营商
- 节点城市
|
通知规则配置
配置项 | 说明 |
---|
联系人 | 云拨测告警支持发送告警通知到指定联系人。 - 选择联系人:
- 从下拉列表选择告警通知接收联系人。
- 在列表中可以看到当前联系人可用的接收告警方式(邮箱或短信),如果需要修改联系人相关信息,可以单击其后的修改按钮。
- 单击 创建联系人 可以新建联系人,具体操作,请参考创建联系人。
- 严重告警渠道:支持 邮件、短信 或 电话。
- 普通告警渠道:支持 邮件、短信 或 电话。
|
团队 | 云拨测告警支持发送告警通知到团队。 - 选择团队:
- 从下拉列表选择告警通知接收的团队。
- 在列表中可以看到当前团队可用的接收告警方式(飞书、钉钉或企业微信),如果需要修改团队相关信息,可以单击其后的修改按钮。
- 单击 创建团队 可以创建新的团队。具体操作,请参考创建团队。
- 通知方式:严重告警与普通告警为统一方式,支持 飞书 、钉钉 和 企业微信。
|
系统集成 | 云拨测告警支持发送告警通知到自定义对接系统。 - 从 选择对接系统 下拉列表选择告警通知接收的系统。
- 在列表中可以看到当前系统的回调URL,如果需要修改系统相关信息,可以单击其后的修改按钮。
- 单击 创建系统 可以创建新的系统集成。具体操作,请参考系统集成。
- 通知方式:严重告警与普通告警为统一通知方式。
|
聚合通知 | 开启后,如果 1 分钟内触发多次告警,云拨测把 1 分钟内的全部告警通知聚合为 2 条告警通知。 - 第 1 条通知是该分钟内产生的第 1 个告警的明细。该通知的告警等级为该告警的等级。
- 第 2 条通知是该分钟内产生的所有告警的汇总。该通知的告警等级为普通告警。
|
通知降频 | 开启后,如果一个告警连续重复触发,告警通知间隔会逐步递增至 5 分钟、10 分钟、30 分钟、1 小时、3 小时、6 小时、12 小时、24 小时。
例如,告警通知间隔为 30 秒,则第二次触发时通知间隔增加至 5 分钟,第三次 10 分钟,第四次 30 分钟。 |
通知时间 | 发送告警通知的时间范围。 |