云计算应用已经深入到各行业和多种场景中,成为企业数字化转型的基础设施,应用形式多样。同时,在多样化的环境下,基于容器的云原生安全风险也被不断放大,成为企业上云的最大挑战。
容器技术是云原生的基础,是云原生时代软件开发和运维的标准基础设施。随着云原生的逐渐普及,容器技术及云原生面临的安全问题也越来越多。
开发者通常会从互联网的镜像仓库中获取源镜像,然后在本地环境中进行镜像构建、仓库存储,测试及生产环境部署等多个环节。此过程中的每个环节,都有可能为镜像软件引入安全风险。
常见的镜像软件供应链风险包括:
容器运行过程中,入侵者会采用多样化的入侵手段对容器侧进行攻击,包括病毒/恶意程序攻击、容器内部的入侵行为、容器逃逸和高风险操作等恶意攻击风险行为。
其中,容器逃逸最为严重,它会直接影响到承载容器的底层基础设施和集群内所有容器的安全稳定。如危险配置、挂载、程序漏洞、内核漏洞等行为均有可能造成容器逃逸。
容器平台环境中的底层的操作系统、容器引擎、编排系统都可能在存在安全风险,例如漏洞、不恰当的配置、恶意文件等各种脆弱性扩散。攻击者利用平台环境的脆弱性,能够轻易地获取高级别的权限,造成较大的安全风险。
常见的平台环境风险有:平台自身漏洞导致非法提权和逃逸攻击、不安全配置引起账户管理问题导致系统入侵、不同安全级容器混合部署导致高安全级容器面临入侵风险、资源使用不设限导致拒绝服务攻击、访问策略配置不当导致非法访问。
容器环境下微服务之间的调用关系复杂,东西向网络流量增大、容器间的网络隔离控制较弱、应用层防护能力缺失、流量封装 IP 快速变化造成的流量可视化不足。某个容器一旦失陷,就会被作为跳板攻击容器网络中其他可访达资产,整个网络中的资产会面临巨大的风险。
传统的安全技术手段如漏洞扫描工具、EDR、安全基线扫描、防火墙、安全管理平台无法解决以上容器安全风险。传统漏洞扫描无法覆盖容器镜像、EDR 仅局限在主机层面无法检测容器层面的危险、安全基线无法覆盖容器平台环境安全基线风险、防火墙仅针对于物理边界而无法对东西向流量隔离、地址变化、应用层防护等场景进行保障、安全管理平台仅局限于运维人员没有引入 DevOps 流程。
因此,需要深入研究容器安全场景需求,自下而上的对容器场景面临的安全风险进行深入研究,研发容器安全防护平台,保障企业容器平台上业务连续稳定运行。
有效实现软件镜像供应链全生命周期的安全管理,把安全工作从运行时左延到 CI 构建阶段,将安全能力与 DevOps 平台集成,透明无感知地嵌入到云原生应用构建、发布到仓库、部署到集群节点和镜像启动的各个环节中。 全生命周期保障手段如下图所示。
在应用构建阶段,需要关注源镜像安全、第三方开发工具包安全、构建配置安全,并设置有效的阻断策略,避免存在风险的构建行为。
镜像构建完成后,将镜像推送到镜像仓库中,仓库中镜像同样需要定期进行安全扫描,包括漏洞、配置、恶意文件等,防止仓库中镜像被仿冒。镜像由仓库部署到生产环境中,需要配置相应的安全卡点,防止风险镜像流入生产环境。
在容器运行阶段,需要配置有效的入侵防御检测能力,对相关的威胁可以设置告警或者容器隔离。在网络层面,配置有效的网络微隔离策略,并针对应用层配置 WAF 安全能力。对容器平台底座的容器引擎、Kubernetes 编排引擎等配置有效的安全加固。
在容器安全实践过程中,实际用户场景存在如下特点:
因此,基于业务视角容器安全防护最佳实践,如下图所示。
以上最佳实践过程中,容器安全能力有效地契合用户的业务场景,提供深度匹配的云原生化安全,从 DevOps 的各个环节,有效控制潜在的安全风险。
镜像漏洞全流程安全运营管理工作分为漏洞检测、漏洞分析、漏洞修复、卡点阻断几个环节。
漏洞检测环节可对源镜像、第三方开发组件、仓库镜像进行全面的漏洞检测。
漏洞分析环节可对漏洞风险进行智能化分析评分,清晰指明修复优先级。
漏洞修复环节可自动化界定修复责任归属部门,及时修复处置。
卡点阻断环节是依靠有效控制手段,防止不合格的镜像流通到生产环境。
说明
漏洞分析、漏洞修复环节是提升镜像漏洞修复工作有效性和效率的重要环节。
结合企业业务环境特点,对漏洞风险进行智能化分析评分。评分需要综合考虑 CVE 本身的风险要素和环境风险要素,从实战化的角度分析出漏洞被利用的可能性。
CVE 本身的风险要素至少包含漏洞严重程度、权限要求、出现时间、攻击方式、是否有修复方案、攻击复杂度等。
环境风险要素至少包含特权容器、root 权限、监听端口、威胁攻击、行为异常等。结合以上要素进行综合评分,给出最适合实际场景的修复优先级建议。
另外,引入更多的维度对漏洞状态及影响范围进行标识展示,给安全运营输入更多有价值的信息。通过创新性手段对漏洞状态进行有效的分类。将漏洞状态分为 PoC 未公开(概念验证)、PoC 已公开(概念验证)、Exp(漏洞利用程序)、武器化等,其中 Exp 和武器化表明了成熟的攻击方式正开始在黑产中流通,是重点关注的内容。同时,将漏洞影响范围可视化呈现,如其相关的容器、镜像、软件包、主机的等关联资产展示。
因此,通过漏洞风险评分、漏洞状态标识和漏洞关联资产展示等技术手段,可以更快更有效判定漏洞修复的优先级,为漏洞修复工作指明方向。
按照火山引擎内部的流程,安全运维部门会预先标识出系统镜像。之后在处理大批量的漏洞扫描信息时,采用独特的镜像风险分层技术,快速鉴别出漏洞哪些出是系统镜像引起的,哪些是上层的应用软件包引起的,以便快速区分是将最终的修复责任属于运维团队或者开发团队,高效的定位修复问题。
威胁检测使用行为基线引擎、敏感行为引擎,CEP 关联分析方法,从容器安全事件中准确定位出威胁,可全面覆盖各类已知和未知威胁,能力如下图所示。
基于事件驱动机制,采集容器内部的网络、文件、进程和系统调用等多维度数据,对容器运行时有实时、深度、全面的感知,为安全检测和分析奠定基础。
内置安全专家经过多年研究和实战总结的上百种敏感行为检测规则 ,并针对最新威胁情报持续更新规则。
采用智能数据分析,自动生成镜像的行为基线,充分利用业务应用微服务化的特性,持续监控分析容器中潜在的行为风险。
在持续监测行为风险的基础上,采用数据关联分析和人工智能方法快速精准判断入侵威胁,覆盖反弹 shell、提权、挖矿、驻留后门、远程控制等十多种威胁场景。
对于失陷容器,提供告警、隔离等多种灵活处置手段以及详细的事件取证与可视化途径,方便安全运维人员及时介入与处置;支持告警外发第三方系统,如与 TI、SIEM 等系统集成。
支持业内领先的容器应用防护能力(WAF),提供集告警、攻击行为拦截为一体的威胁防护服务,可防护 Webshell、SQL 注入攻击、远程控制等典型的 Web 应用攻击。
提供基于 Kubernetes 生态的网络微隔离,阻止异常网络链接,提升东西向流量的安全性。采用独有的近源端设计,网络控制高效兼容 Calico, Flannel, VPC-CNI 等各种云原生网络方案。
所有容器安全防护组件包括控制台和 Agent,均以非特权平行容器的方式运行,可自主设置资源消耗上限,对容器平台低侵入。其中,防护探针以 Kubernetes 守护类型安装部署,多个节点均可一键部署。
整个部署方式,轻量化,支持高可用以及资源的弹性扩展,具有优秀的健康自愈能力,秒级故障自恢复,容错能力强。
支持容器引擎接口精细化访问控制,用户客户端通过容器引擎接口访问容器平台资源进行细粒度命令行层面管控,对容器资源进行有效安全隔离,保证容器平台稳定运行。