公有云海量的物理服务器中,会概率性出现亚健康状态(底层检测到有硬件故障,但是还未宕机),此时还不影响云服务器实例运行。但是如果不及时处理故障隐患,可能会使故障升级,影响实例可用性。
针对底层硬件亚健康状态,系统会产生“系统维护”事件通知用户。用户感知到故障隐患后,授权火山引擎进行运维操作,并根据自身业务情况,选择一个合适的操作时间段(可选范围为事件产生后的0~72小时,每个时间段12小时)。
在用户选择的时间段,系统自动将已授权的用户实例冷迁移到其他硬件设备上,规避风险。