本文主要介绍容器服务稳定性建设中基础稳定性相关配置和操作建议。
随着容器业务的增长,系统将面临更大的压力和更复杂的挑战。稳定性建设有助于确保系统能够适应增长的需求,支持业务的扩展。容器服务以工作负载与 Kubernetes 集群为核心,在非侵入性改造的前提下,为提升业务稳定性提供参考。
本文主要介绍基础稳定性相关内容,更多稳定性优化相关内容,请参见:
分类 | 事项 | 说明 | 相关文档 |
---|---|---|---|
集群规划 | 控制面高可用配置 | 通过配置多可用区子网,构建高可用控制面。 | |
组件管理 | 使用 VKE 提供的标准组件 | 避免使用第三方工具管理业务,请直接部署 VKE 提供的标准化组件管理业务。 | 组件概述 |
优先使用 VCI 部署 | 为避免出现组件资源过载,影响业务功能,因此部署组件时建议 部署形态 优先选择用 弹性容器部署,即以弹性容器实例(VCI)资源部署组件。 | ||
节点池 | 使用节点池管理节点 | 通过节点池统一管理集群中的一组节点资源。 | 创建节点池 |
使用托管节点池 | 推荐使用托管节点池管理节点资源,托管节点池面向节点会进行常见故障检测和故障自愈。 | ||
关注并提升配额 | 使用 VKE 时存在配额限制,当配额使用较多时需要及时提升配额。您也可以在 配额中心 配置告警,在配额消耗完之前感知并提前规划。 | ||
启用观测 | 接入指标、告警 | 开通云原生观测能力,支持通过火山引擎云原生观测(基础观测、全栈观测)或云监控方案,实现集群、基础资源和应用指标(Metrics)的采集、监控和告警。 | |
接入日志 | 将控制面、业务负载、组件日志和集群事件采集到火山引擎日志服务中,实现日志和事件的持久化。 | ||
启用集群审计 | 开启集群审计,将用户在集群中的日常操作采集到火山引擎日志服务中。 | 集群审计 | |
启用组件监控 | 监控 Ingress、DNS、CNI 等常用组件指标。 | ||
启用网络与应用监控 | 监控四层/七层网络流量指标并可视化管理上下游调用,实现网络和应用观测。 | 全栈观测 | |
启用集群巡检 | 集群巡检可以帮助用户发现集群中可能存在的潜在风险。 | 配置集群巡检 | |
启用诊断 | 故障诊断提供了面向集群资源(例如节点池、节点、Pod)的快速故障诊断能力。 |