AIOps 套件是容器服务提供的集群运维管理组件,沉淀了火山引擎内部丰富的 Kubernetes 容器集群运维经验和解决方案,为您带来便捷易用的集群运维管理体验。
AIOps 套件主要包括 集群巡检 和 故障诊断 工具,满足您面向容器服务集群日常巡检和故障诊断的需求。
集群巡检可以帮助用户发现容器服务集群中可能存在的潜在风险,并提供解决建议。包括:配置风险、资源异常、配额不足、资源水位等。
集群巡检支持 周期巡检 和 手工巡检。主要包含的巡检内容如下表所示。
巡检对象 | 巡检内容 |
---|---|
集群巡检 | 检查集群正常、稳定运行所需的必要配置,例如:删除保护、高可用性、审计日志、安全组、CoreDNS 组件等。 |
节点巡检 | 检查集群节点状态,及时发现状态异常的节点,保证集群资源可用。 |
资源水位巡检 | 检查集群各资源的水位情况,包括:集群水位、节点水位和 Pod 水位等。 |
资源配额巡检 | 检查集群各类资源的配额使用情况,包括:CLB 配额、节点配额、节点池配额等。 |
故障诊断提供了面向集群资源的快速故障诊断能力,帮助您定位集群资源的常见问题,并给出解决建议。
故障诊断支持的集群资源包括:节点池、节点和容器组。详细信息如下表所示。
诊断对象 | 诊断内容 |
---|---|
节点池诊断 | 覆盖了节点池的常见问题。包括:节点池状态、节点池和相关产品配额、节点池弹性伸缩等。 |
节点诊断 | 覆盖了节点的常见问题。包括:节点资源、节点内核、节点版本、节点状态、节点网络等。 |
容器组诊断 | 覆盖了 Pod 的常见问题,包括:Pod 资源、Pod 状态、Pod 镜像等。 |
Ingress 诊断 | 帮助用户发现容器服务集群中 Ingress 资源可能存在的风险。包括:Ingress 实例诊断、组件诊断、CLB 诊断等。 |
集群巡检或诊断后,系统会生成检查报告。报告中检查结果的状态,如下表所示。
状态 | 说明 |
---|---|
通过 | 通过检查,无需处理。 |
未通过 | 存在问题,需尽快处理。防止由于问题引起集群或业务故障。 |
警告 | 存在问题,可选择处理。一般需要与集群或业务实际结合分析。 |
报错 | 检查异常。可能是服务异常,建议您重试。 |