You need to enable JavaScript to run this app.
导航
为 ML 服务配置告警策略
最近更新时间:2024.11.01 11:11:46首次发布时间:2024.09.18 11:23:00

您可以在云监控控制台为 ML 服务配置告警策略,帮助您实时关注 ML 服务的运行情况。本文档为您介绍如何配置告警策略,并给出一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。

创建告警策略

  1. 登录云监控控制台
  2. 在左侧导航栏,选择告警中心 > 告警策略,然后单击创建告警策略
  3. 自定义设置策略名称,然后选择资源类型为中间件 > 云搜索服务,维度为ML服务
    Image
  4. 选择目标资源,然后配置告警规则。

推荐配置的告警规则

AI节点CPU使用率

  • 在持续 1 个周期内,节点 CPU 使用率的最大值大于 90% 时触发严重-电话告警。
  • 在持续 1 个周期内,节点 CPU 使用率的最大值大于 80% 时触发警告-短信告警。

Image

AI节点QPS

根据业务来确定告警QPS。

  • 在持续 1 个周期内,AI节点QPS的最大值大于 xx 时触发严重-电话告警。
  • 在持续 1 个周期内,AI节点QPS的最大值大于 xx 时触发警告-短信告警。

Image

AI节点平均响应时间

根据业务来确定告警平均响应时间。

  • 在持续 1 个周期内,AI节点平均响应时间的最大值大于 xx 时触发严重-电话告警。
  • 在持续 1 个周期内,AI节点平均响应时间的最大值大于 xx 时触发警告-短信告警。

Image

AI节点存活率

在持续 1 个周期内,AI节点存活率的最小值小于 100% 时触发严重-电话告警。
Image

AI节点内存利用率

  • 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 90% 时触发严重-电话告警。
  • 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 80% 时触发警告-短信告警。

Image

AI节点磁盘利用率

  • 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 80% 时触发严重-电话告警。
  • 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 60% 时触发警告-短信告警。

Image