问题现象
通过代理方式注册的集群长期处于失联状态,没法恢复正常连接。
原因分析
通过代理方式注册集群时,需要在集群已有节点安装用于连接通信的 Agent。当 Agent 无法安装时,容器服务中就会出现注册集群失联的情况,可能存在以下情况:
- 场景一:下线 Agent 所属节点,但依然存在其他节点时,Agent 将自动迁移到可用节点,迁移过程将导致注册集群短暂失联。
- 场景二:下线所有节点,导致 Agent 没法安装时,注册集群将彻底失联。
解决方案
建议至少保留一个可以正常工作的节点,以保证 Agent 能够正常安装,从而保证集群能够正常连接。若确实出现以上情况,可参考以下方法进行解决:
- 方案一:针对场景一,无需做额外处理,等待 Agent 迁移成功,集群就能恢复连接状态。
- 方案二:针对场景二,集群已经彻底失联,没法通过容器服务添加或上线节点,需前往源平台添加或上线节点,然后等待 Agent 自行恢复,集群即可恢复连接状态。