您可以在云监控控制台为 ML 服务配置告警策略,帮助您实时关注 ML 服务的运行情况。本文档为您介绍如何配置告警策略,并给出一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。
创建告警策略
- 登录云监控控制台。
- 在左侧导航栏,选择告警中心 > 告警策略,然后单击创建告警策略。
- 自定义设置策略名称,然后选择资源类型为中间件 > 云搜索服务,维度为ML服务。

- 选择目标资源,然后配置告警规则。
推荐配置的告警规则
AI节点CPU使用率
- 在持续 1 个周期内,节点 CPU 使用率的最大值大于 90% 时触发严重-电话告警。
- 在持续 1 个周期内,节点 CPU 使用率的最大值大于 80% 时触发警告-短信告警。

AI节点QPS
根据业务来确定告警QPS。
- 在持续 1 个周期内,AI节点QPS的最大值大于 xx 时触发严重-电话告警。
- 在持续 1 个周期内,AI节点QPS的最大值大于 xx 时触发警告-短信告警。

AI节点平均响应时间
根据业务来确定告警平均响应时间。
- 在持续 1 个周期内,AI节点平均响应时间的最大值大于 xx 时触发严重-电话告警。
- 在持续 1 个周期内,AI节点平均响应时间的最大值大于 xx 时触发警告-短信告警。

AI节点存活率
在持续 1 个周期内,AI节点存活率的最小值小于 100% 时触发严重-电话告警。

AI节点内存利用率
- 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 90% 时触发严重-电话告警。
- 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 80% 时触发警告-短信告警。

AI节点磁盘利用率
- 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 80% 时触发严重-电话告警。
- 在持续 1 个周期内,AI节点磁盘利用率的最大值大于 60% 时触发警告-短信告警。
