You need to enable JavaScript to run this app.
导航
创建告警
最近更新时间:2025.02.28 13:08:42首次发布时间:2023.10.13 14:33:19

云拨测告警基于多维度、多指标、智能基线对拨测任务进行实时异常检测,提供多种告警规则配置,您可以灵活调整、组合设置告警规则,通过云拨测告警管理,实现告警信息多渠道通知,确保及时发现并修复线上故障。

前提条件

  • 已创建拨测任务,并且 任务状态运行中。具体操作,请参考创建拨测任务
  • 已配置告警通知对象和通知方式。具体操作,请参考告警通知对象

操作步骤

  1. 登录云拨测控制台
  2. 在左侧菜单栏选择 告警管理 > 告警列表。在 告警列表 页面单击 创建告警
  3. 创建告警 页面,依次完成以下配置:
    1. 配置基本信息
    2. 告警规则配置
    3. 通知规则配置
  4. 参数配置完成后,单击 创建告警

您可以在 告警列表 页面看到您创建的告警,状态为 已启用
Image

配置说明

基本信息配置

配置项

说明

告警名称

为创建的告警设置一个名称。支持 UTF-8 编码,不能超过 256 个字符。

任务类型

选择告警所关联的拨测任务类型。您可以选择:

  • HTTP(S)
  • PING
  • DNS
  • TCP/UDP
  • 文件传输
  • 页面元素

说明

关于不同任务类型的说明,请参见任务类型介绍

拨测方式

任务所使用的拨测方式。

说明

任务类型TCP/UDP文件传输 时,需要设置拨测方式。

  • TCP/UDP:
    • TCP
    • UDP
  • 任务类型:
    • 上传
    • 下载

任务选择

您可以选择具体任务或任务组下的任务。

  • 任务:从下拉菜单中选择一个任务。
  • 任务组:从下拉菜单中选择一个任务组。任务组用于标识拨测任务,便于您快速查找、分析某一组的拨测任务。

告警规则配置

配置项

说明

检测方式

您可以根据具体的需求和监控场景,选择合适的告警检测方式:

  • 固定阈值:固定阈值是一种静态的告警触发机制,其中阈值是预先设定的固定数值,指标值超出阈值则标记为异常。无论被监控指标如何变化,告警触发的条件都是基于这些固定数值。
  • 动态阈值:动态阈值是一种更智能的告警触发机制,其中阈值是基于多种算法动态计算的,无需手动配置,实际值超出范围则会被标记异常。这种方法考虑了数据的自然波动和趋势,能够适应数据的变化。

如果您的监控指标相对稳定,且您对性能有明确的预期,固定阈值可能是一个简单有效的选择。如果您的监控指标波动较大,或者您希望告警系统能够自适应数据变化,动态阈值可能更适合您的需求。

触发条件-固定阈值

您可以根据需要设置告警触发条件,以便在特定的性能指标超出预设阈值时获得通知。

  • 告警触发条件:
    • 时间周期:最近的拨测周期数量,您可以设置的范围是1到6个周期。
    • 触发频率:表示在所选周期内满足告警条件的次数,设置范围为1到6次。
      • 任意:在所选周期内,只要有一次满足告警条件,就会触发告警。
      • 连续:在所选周期内,需要连续多次满足告警条件,才会触发告警。
    • 满足条件的类型
      • 任一:只要有一个监控指标满足告警条件,就会触发告警。
      • 所有:所有监控指标都必须满足告警条件,才会触发告警。
        例如,假设您设置告警条件为“在最近5个拨测周期,任意 1 次满足以下 所有 条件则触发相应告警”:表示云拨测将检查任务最近的5个连续的拨测周期的数据,只要有任意1次的检测结果满足后续设定的告警条件,就会触发告警。
  • 监控指标:从下拉列表,选择触发告警的监控指标。您可以请前往指标体系页面了解相关指标的具体定义。
  • 告警阈值:
    • 普通告警阈值:为所选监控指标设置普通告警的阈值。当监控数据达到或超过此阈值时,将触发普通级别的告警。
    • 严重告警阈值:为所选监控指标设置严重告警的阈值。当监控数据达到或超过此阈值时,将触发严重级别的告警。严重告警的阈值应设置得比普通告警更严格,以区分告警的严重程度。
    • 比较方式选择:对于每个监控指标,您可以选择以下任一阈值比较方式:
      • 大于(>):监控数据大于阈值时触发告警。
      • 大于等于(>=):监控数据大于或等于阈值时触发告警。
      • 小于(<):监控数据小于阈值时触发告警。
      • 小于等于(<=):监控数据小于或等于阈值时触发告警。
  • 添加更多指标:您可以单击 添加指标,根据需要设置其他监控指标及其告警阈值。

触发条件-动态阈值

  • 监控周期:设定一个监控周期,系统将根据这个周期内的历史数据来动态计算阈值。
  • 监控指标:目前只支持选择可用率。

例如,假设您选择了“可用率”作为监控指标,并设置了2分钟为一个监控周期。系统将分析过去2分钟内的可用率数据,计算出一个合理的阈值范围。如果在未来2分钟内,可用率数据超出了这个动态计算的阈值范围,系统将触发告警。

数据过滤

筛选出符合条件的拨测数据进行告警检测。
例如,当您需要针对特定的节点运营商设置告警阈值时,可以通过数据过滤来实现。从下拉列表选择 节点运营商 包含 "中国移动"。

分组检测

  • 不分组(默认):所有节点的拨测数据求平均值,对该值进行告警检测。这种方式适用于整体性能监控,但可能无法反映局部问题。
  • 分组监控:将数据按照特定的维度进行分组,然后对每个分组的数据单独进行告警检测。这种方法可以帮助您更细致地了解不同分组的性能表现,从而更有效地识别和解决问题。
  • 支持的分组维度:
    • 国家
    • 节点国家-省份
    • 节点国家-省份-运营商
    • 节点运营商
    • 节点城市

通知规则配置

配置项

说明

联系人

云拨测告警支持发送告警通知到指定联系人。

  • 选择联系人:
    • 从下拉列表选择告警通知接收联系人。
    • 在列表中可以看到当前联系人可用的接收告警方式(邮箱或短信),如果需要修改联系人相关信息,可以单击其后的修改按钮。
    • 单击 创建联系人 可以新建联系人,具体操作,请参考创建联系人
  • 严重告警渠道:支持 邮件短信电话
  • 普通告警渠道:支持 邮件短信电话

团队

云拨测告警支持发送告警通知到团队。

  • 选择团队:
    • 从下拉列表选择告警通知接收的团队。
    • 在列表中可以看到当前团队可用的接收告警方式(飞书、钉钉或企业微信),如果需要修改团队相关信息,可以单击其后的修改按钮。
    • 单击 创建团队 可以创建新的团队。具体操作,请参考创建团队
  • 通知方式:严重告警与普通告警为统一方式,支持 飞书钉钉企业微信

系统集成

云拨测告警支持发送告警通知到自定义对接系统。

  • 选择对接系统 下拉列表选择告警通知接收的系统。
    • 在列表中可以看到当前系统的回调URL,如果需要修改系统相关信息,可以单击其后的修改按钮。
    • 单击 创建系统 可以创建新的系统集成。具体操作,请参考系统集成
  • 通知方式:严重告警与普通告警为统一通知方式。

聚合通知

开启后,如果 1 分钟内触发多次告警,云拨测把 1 分钟内的全部告警通知聚合为 2 条告警通知。

  • 第 1 条通知是该分钟内产生的第 1 个告警的明细。该通知的告警等级为该告警的等级。
  • 第 2 条通知是该分钟内产生的所有告警的汇总。该通知的告警等级为普通告警。

通知降频

开启后,如果一个告警连续重复触发,告警通知间隔会逐步递增至 5 分钟、10 分钟、30 分钟、1 小时、3 小时、6 小时、12 小时、24 小时。
例如,告警通知间隔为 30 秒,则第二次触发时通知间隔增加至 5 分钟,第三次 10 分钟,第四次 30 分钟。

通知时间

发送告警通知的时间范围。