集群事件监控用于记录和通知高性能计算集群内GPU型实例事件信息,当实例触发系统事件(例如:系统故障,导致实例重新部署)时,您可以及时查看事件详情并进行处理。
介绍支持的事件类型、状态、名称及推荐操作等信息。
类别 | 事件类型 | 事件名称 | 说明 |
---|---|---|---|
计划内运维事件 | SystemMaintenance.Redeploy | 系统维护,实例重新部署 | 事件说明、影响、用户侧建议操作等请参见计划内运维事件。 |
InfrastructureUpgrade.Redeploy | 基础设施升级,实例重新部署 | ||
非预期运维事件 | SystemFailure.Redeploy | 系统故障,导致实例重新部署 | 事件说明、影响、用户侧建议操作等请参见非预期运维事件。 |
GpuRiskDetected | GPU运行存在风险 | ||
DiskErrorDetected | 硬盘异常 |
您可以通过云服务器控制台查询并处理事件,为避免业务受到影响,收到事件通知后,请您及时查看并处理。
当高性能计算集群内的GPU型实例触发监控事件时,您可以通过订阅消息中心通知与配置云监控通知接收事件通知。
- 您是否配置“接收事件通知”,都不影响事件在云服务器控制台展示,关于在控制台查询并处理事件。
- 配置消息中心与云监控接收事件通知,相比从控制台获取事件信息更加及时和便捷。