通过模拟调用延迟、服务不可用、机器资源满载等故障,查看发生故障的节点或实例是否执行自动隔离、下线等操作,流量调度是否正确,预案是否有效;同时观察系统整体的性能是否受影响。在此基础上,缓慢增加故障节点范围,验证上游服务限流降级、熔断等功能是否有效。最终将故障节点增加到请求服务超时,估算系统容错红线,衡量系统容错能力。
通过模拟上层资源负载,验证调度系统的有效性;模拟所依赖的分布式存储不可用,验证系统的容错能力;模拟调度节点不可用,测试调度任务是否自动迁移到可用节点;模拟主备节点故障,测试主备切换是否正常。
通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。