You need to enable JavaScript to run this app.
导航
通过飞书接收无数据告警通知
最近更新时间:2024.08.01 19:04:43首次发布时间:2024.06.28 10:39:08

用户侧数据采集场景中,云产品可能出现卡死导致资源打点不上报监控。本文以飞书Webhook为例,介绍云产品如何配置无数据告警,触发告警策略时,向指定飞书群推送告警通知,帮助云产品及时关注无数据的指标。

注意事项

  • 飞书群机器人分为应用机器人与自定义机器人,本文所需添加的机器人为自定义机器人。关于飞书群机器人的使用说明,请参见如何在群组中使用机器人
  • 仅飞书电脑端支持添加自定义机器人,且一个飞书群中最多可添加99个机器人。

步骤一:在飞书群中添加机器人

  1. 打开飞书电脑端,并进入需要添加自定义机器人的飞书群。
  2. 在群聊页面的右上角,选择 ··· > 设置
    图片
  3. 设置界面,单击群机器人
    图片
  4. 群机器人界面右上角,单击添加机器人
  5. 添加机器人对话框,找到并单击自定义机器人
    图片
  6. 在弹出的对话框中,设置机器人头像名称描述,然后单击添加
    添加成功后,您可以查看到机器人对应的Webhook。

    说明

    不推荐您选中安全设置中的任何配置项,以避免群机器人接收不到告警通知。

    图片
  7. 单击webhook地址后的复制,复制机器人的Webhook,然后单击完成
    后续您在云监控中配置告警策略时,需要将该机器人的Webhook设置为告警回调的URL。

步骤二:创建回调地址

  1. 登录云监控控制台

  2. 在左侧导航栏,选择通知组 > 回调

  3. 回调地址列表页面,单击创建回调地址

  4. 创建回调地址页面,完成以下配置,然后单击确定
    图片
    配置项说明:

    配置项

    说明

    示例

    Webhook名称

    自定义Webhook名称,用于识别该回调地址。名称可以重复。

    飞书无数据告警地址

    回调地址类型

    选择回调地址类型。支持的类型有飞书、钉钉、企业微信和通用Webhook。

    飞书

    回调地址

    输入公网可访问的URL,然后单击测试校验回调地址。

    • 当回调地址返回的响应HTTP Code为200时,显示联通性测试成功,表示网络联通,该Webhook可以接收告警和事件通知。
    • 联通性测试限制QPS,1秒最多1次。

    https://open.feishu.cn/open-apis/bot/v2/hook/xxxxxxx-xxxxxxx-xxxxxxx

步骤三:创建告警策略

  1. 在左侧导航栏,选择告警中心 > 告警策略

  2. 告警策略页面,单击创建告警策略

  3. 创建告警策略页面,按照业务完成配置,然后单击确定
    图片
    配置项说明:

    区域

    配置项

    说明

    示例

    基本信息

    名称

    自定义告警策略名称,用于标识告警策略。

    无数据告警回调测试

    描述

    自定义告警策略的说明性信息。

    告警对象

    资源类型

    指定被监控的云产品类型。

    云服务器

    地域

    被监控资源所属的地域。

    华北2(北京)

    维度

    指定被监控的云产品的资源维度。

    实例

    资源

    设置告警策略作用的资源范围,即仅在该资源范围内进行监控。支持以下任一设置:

    • 全部:表示对当前账号下,符合指定资源类型、地域以及维度的所有资源设置告警策略。
      选择后,符合条件的新建资源也会自动匹配该告警策略。
    • 部分:您需要手动选择一个或多个资源。
      选择后,表示仅对该部分资源设置告警策略。

    注意

    资源被删除不发送无数据告警通知。
    例如,当告警规则配置的资源为全部,之后删除了某一个资源A,因为A被删除,连续n个周期没有上报数据,不发送无数据告警。

    全部

    告警规则

    指标类型

    选择指标类型,支持选择单指标多指标。如果您需要监控资源的多个指标,可直接配置多指标类型。

    注意

    • 一条规则同时触发阈值告警和无数据告警,则会分别发送两条通知。
    • 不是所有的云产品指标都支持无数据告警。目前只有告警规则维度为实例,且资源只涉及一个层级的云产品指标可以配置无数据告警,以控制台显示为准。

    多指标

    触发条件

    设置告警的监控指标、持续周期、统计类型、比较关系以及阈值。当被监控的资源指标达到触发条件时,系统会推送告警通知。

    • 如果指标类型设置为单指标,则仅支持设置一个触发条件。
    • 如果指标类型设置为多指标,则支持设置一个或多个触发条件。

    满足任意指标条件,并持续一个周期,触发告警

    • CPU使用率 平均值 > 1%
    • 磁盘存储总量 最大值 > 10MiB
    • 内存使用率 平均值 > 20%

    告警级别

    标识告警的严重程度。支持设置严重警告通知

    严重

    生效时间

    配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

    00:00~23:59

    告警发送周期

    触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。

    • 支持配置为5分钟10分钟15分钟30分钟60分钟3小时6小时12小时24小时
    • 默认为5分钟。

    5分钟

    告警恢复通知

    告警恢复后向用户发送一条恢复通知,默认为打开。

    注意

    • 告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。
    • 无数据告警场景中,资源连续5分钟恢复数据上报,发送恢复通知。

    开启

    无数据告警

    配置云产品资源连续指定几个周期,无数据上报,就触发无数据告警。

    说明

    支持配置3~20个周期,默认为10个周期。

    开启
    资源连续指定3个周期,无数据上报,则会触发无数据告警

    告警方式

    告警渠道

    选择一个或多个渠道。支持邮箱电话短信以及告警回调

    告警回调

    告警回调

    • 必须指定一个公网可用的URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过POST请求发送至该URL,便于您进行深入的数据分析。
      • 支持选择已创建的回调地址,最多选择8个。
      • 支持填写回调地址,只能填写1个。
    • 建议您准备一台已开启HTTP服务且能在公网访问的服务器,然后将服务器的HTTP URL设置为告警回调URL。
    • 关于告警回调的更多信息,请参见告警回调使用说明

    飞书无数据告警地址

步骤四:查看告警通知

当云产品触发对应的告警策略时,您可以在飞书群中接收到自定义机器人发送的告警通知。通知内容如下图所示。
图片