You need to enable JavaScript to run this app.
导航
独享集成资源组监控告警配置
最近更新时间:2024.06.17 15:38:57首次发布时间:2024.06.17 15:38:57

火山引擎云监控服务是云上一站式监控告警解决方案,云监控可以收集并可视化展示各类云产品的资源状态,帮助您全面了解其健康状况。例如:资源组使用率、重点指标性能数据、运行状态等。能够及时识别云上资源异常状态并发送告警通知,确保业务平稳运行、提升运维效率。
本文将为您介绍如何通过云监控服务,来配置 DataSail 全域数据集成中独享集成资源组利用率的相关监控。

1 背景信息

随着业务的持续发展,DataSail 独享集成资源组的负载日益加重。一定规格数量的独享集成资源组,可支持的多并发任务数存在上限,而随着业务的任务数量和同步表数量的增加,资源组的利用率逐渐攀升,甚至超出其负荷能力,进而导致任务因资源分配不足而失败。
为防止这类问题出现,DataSail 强烈建议您为独享集成资源组配置相关的云监控服务。通过实时监控资源组的利用率情况,可以在不同业务时段及时对资源组进行扩缩容操作。确保业务的稳定运行,并提升任务的成功率和运维效率。以便更好地应对业务增长带来的挑战,实现独享集成资源组的最大化利用。

2 使用前提

3 创建资源组告警策略

独享集成资源组监控指标对应的告警策略配置,需前往云监控平台创建:

  1. 登录云监控控制台

  2. 在左侧导航栏,选择告警中心 > 告警策略

  3. 告警策略页面,单击创建告警策略按钮。
    图片

  4. 在告警策略配置界面,完成以下配置信息:

    • 基本信息

      配置项

      说明

      名称

      自定义告警策略名称,用于标识告警策略。不能以数字、中划线开头,名称长度限制在 1~128 字符之间。

      描述

      自定义告警策略的说明性信息。

    • 告警对象

      配置项

      说明

      资源类型

      选择数据中台 > 全域数据集成 资源组。

      地域

      选择独享集成资源组所在的地域信息。

      维度

      默认以资源组维度配置。

      资源

      您可选择全部或部分资源组进行监控。建议选择全部资源进行监控。

      说明

      选择部分资源配置时,需要选择相应已创建的资源组名称。

    • 告警规则

      配置项

      说明

      指标类型

      支持单指标多指标类型进行按需选择。建议选择多指标类型。

      触发条件

      全域数据集成独享集成资源组目前支持以下 2 种指标配置告警触发条件:

      • 资源组的 CPU 利用率:监控独享集成资源组 CPU 的利用率,可支持按需选择持续 N 个周期的最大值进行监控。如 CPU 利用率,持续 1 个周期最大值 >= 90% 时,进行监控告警。
      • 资源组的内存利用率:监控独享集成资源组内存的利用率,可支持按需选择持续 N 个周期的最大值进行监控。如内存利用率,持续 1 个周期最大值 >= 90% 时,进行监控告警。

      说明

      建议选择多指标类型进行监控,多个指标间,可按需选择全部任意指标满足判断条件时,触发资源组告警。

      告警级别

      标识告警的严重程度。支持设置严重警告通知

      生效时间

      配置告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

      告警发送周期

      触发告警策略后,如果被监控的资源仍然持续触发告警,为避免打扰,系统会周期性发送告警通知。

      • 支持配置为 5 分钟10 分钟15 分钟30 分钟60 分钟3 小时6 小时12 小时24 小时
      • 默认为 5 分钟。

      告警恢复通知

      告警恢复后向用户发送一条恢复通知,默认为打开。

      注意

      告警恢复通知是对告警策略维度的恢复通知,当告警策略的状态恢复为正常时,云监控判断为告警恢复。

    • 告警方式

      配置项

      说明

      告警渠道

      选择一个或多个渠道。支持邮箱电话短信以及告警回调
      其中,电话和短信通知的接收限制,请参见使用限制

      告警联系组

      告警渠道选择邮箱电话或者短信中的一个或多个渠道时,页面将展示告警联系组。创建方式详见联系人

      • 必须设置至少 1 个联系组作为告警通知的接收方。
      • 至多设置 5 个联系组作为告警通知的接收方。

      告警回调

      告警渠道选择告警回调时,页面将展示告警回调文本框。

      • 必须指定一个公网可用的 URL。后续如果资源触发告警策略,则系统会把告警的详细信息通过 POST 请求发送至该 URL,便于您进行深入的数据分析。
        • 支持选择已创建的回调地址,最多选择 8 个。
        • 支持填写回调地址,只能填写 1 个。
      • 建议您准备一台已开启 HTTP 服务且能在公网访问的服务器,然后将服务器的 HTTP URL 设置为告警回调 URL。
      • 关于告警回调的更多信息,请参见告警回调使用说明
      • 告警回调支持关联飞书、钉钉、企业微信中的群机器人,以实现自动推送告警通知。具体操作,请参见通过飞书群接收告警通知通过钉钉群接收告警通知通过微信群接收告警通知
  5. 告警策略信息填写完成后,单击确定按钮,完成告警策略配置。

4 告警策略管理

独享集成资源组告警策略创建完成后,您可在告警策略列表界面,进行以下告警策略管理操作:
图片

操作项

说明

告警策略筛选

在告警策略列表上方,您可根据监控告警资源类型进行下拉筛选;也可在筛选条件框中,根据资源名称、状态、告警级别、启用状态进行精确搜索。

名称

单击告警策略列表中的策略名称信息,可查看告警策略的概览信息,也可对其进行编辑、启用、停用和删除策略相关操作。

启用

对已停用的告警策略,您可单击操作列中的启用按钮,将停用的告警策略进行启用。

说明

告警策略首次创建完成后,默认自动启动。

停用

针对已启用的告警策略,若业务暂不需要对资源进行监控时,您也可单击操作列中的停用按钮,

编辑

单击操作列中更多 > 编辑按钮,可重新对告警策略进行编辑操作。

复制

单击操作列中更多 > 复制按钮,将基于当前告警策略,进行复制操作,在复制告警模版弹窗中,重新命名后,便可完成复制策略。

删除

当前业务不再需要改资源监控告警策略时,您可单击操作列中更多 > 删除按钮,将当前策略进行删除操作。

5 后续操作

独享集成资源组告警策略配置完成后,您便可进行后续的离线集成任务流式集成任务解决方案任务相关的创建操作。