You need to enable JavaScript to run this app.
导航
管理集群事件
最近更新时间:2024.11.19 10:09:56首次发布时间:2024.11.19 10:09:56

集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。

事件概述

  • 事件状态:展示事件在其生命周期中所处的不同阶段或情况,详情请参见事件概述
  • 事件类型与事件名称命名规则:事件类型与事件名称,遵循固定规则命名。了解命名规则后,您可以通过事件名称快速理解事件含义,详情请参见事件类型与事件名称命名规则

事件汇总

介绍支持的事件类型、状态、名称及推荐操作等信息。

类别事件类型事件名称说明
计划内运维事件SystemMaintenance.Redeploy系统维护,实例重新部署事件说明、影响、用户侧建议操作等请参见计划内运维事件
InfrastructureUpgrade.Redeploy基础设施升级,实例重新部署
非预期运维事件SystemFailure.Redeploy系统故障,导致实例重新部署事件说明、影响、用户侧建议操作等请参见非预期运维事件
GpuRiskDetectedGPU运行存在风险
DiskErrorDetected硬盘异常

查询并处理事件

您可以通过云服务器控制台查询并处理事件,为避免业务受到影响,收到事件通知后,请您及时查看并处理。

  1. 登录云服务器控制台
  2. 在左侧导航树,选择“实例与镜像 > 高性能计算集群”。
  3. 在顶部导航栏,选择触发事件资源所属的项目和地域。
  4. 单击目标实例后,单击“事件列表”页签。
  5. 您可以在“待处理”或“全部”页面查看并处理事件,也可以通过时间段、事件ID等筛选事件信息并进行处理。关于更多操作说明请参见查询并处理事件
    alt
    • 待处理(默认):仅展示该集群所有待响应事件。
    • 全部:展示该集群当前全部运维类事件,包括已处理和待处理事件。

配置事件监控通知

当高性能计算集群内的GPU型实例触发监控事件时,您可以通过订阅消息中心通知配置云监控通知接收事件通知。

  • 您是否配置“接收事件通知”,都不影响事件在云服务器控制台展示,关于在控制台查询并处理事件
  • 配置消息中心与云监控接收事件通知,相比从控制台获取事件信息更加及时和便捷。