SLA 保障产品融合全链路数据治理方法论,提供了 SLA 在线化管理、统计分析及事故复盘等能力,从而提升核心数据的稳定性。产品主要具备以下特性:
100%在线化的核心数据 SLA 申报、审批、签署流程,提升信息处理效率。
提供具有公信力的官方认定 SLA,对每日达成情况进行公示。
丰富的治理仪表盘,帮助快速分析治理效果,定位问题。
通过事故复盘管理,不断迭代和提升数据的稳定性及质量。
数据消费者 SLA 使用
团队负责的业务十分依赖某张表,但其产出时间非常不稳定,团队希望能对其进行保障,相关上游可以承诺 SLA。
数据负责人 SLA 管理
团队内部有很多表对外承诺了 SLA,希望能有一个平台对 SLA 进行集中管理,并能提供一些统计大盘、风险分析等能力,协助对数据进行更好的治理。
数据治理方 SLA 自治
作为团队治理负责人,希望能提升团队内核心数据稳定性。通过管理团队内的 SLA,识别风险,及时进行事故复盘和改进等措施,持续优化数据质量。
SLA
服务级别协议(Service Level Agreement),是网站服务可用性的保证。SLA 治理平台提供在线化申报与签署,并通过多种治理保障措施,协同提高全链路数据质量。
角色
目前 SLA 保障平台的核心角色有三类,分别如下:
申报人:即 SLA 提申报的人,一般是数据业务方,其提申报的目的是保障业务数据的 SLA。
管理员:满足数据治理方的需求设置的角色,负责申报的审核、批准、管理等,其目的是不断优化所属团队的数据质量。
任务负责人:即待保障 SLA 数据链路中的任务负责人,负责确定及签署所负责任务的 SLA,平台会按照其签署的 SLA 进行保障。
任务
即产出数据的任务,通过数据任务的元信息,可构建整条数据生产链路的完整 DAG(Directed Acyclic Graph,有向无环图)。在本平台中,所涉及的任务元信息一般需要包含以下内容:
基本信息:该任务的基本信息。
归属信息:该任务由谁负责,由哪个团队管理。
运行状态:该任务的运行状态。
上下游信息:该任务的上下游任务。
申报单
申报人提起的一次申报内容,就称为一个申报单。一个申报单一般包含的核心内容如下:
元素 | 说明 |
---|---|
申报任务 | 申报的任务,即申报人希望保障的任务,也称为起点任务。 |
期望 SLA | 申报人希望申报任务的产出时间,会直接按该时间进行签署。 |
治理团队 | 数据治理方,该申报单将由此治理团队的管理员进行审批及治理。 |
SLA 保障平台以申报单签署的形式达成 SLA 协议,来实现 SLA 保障。签署过程中,先通过 “系统卡点计算” 减少待签署任务的数量,再通过 “SLA 推荐计算” 自动签署部分任务,最后为剩下的待签署任务智能提供合适的 SLA,从而实现流程优化,进一步降低签署成本。
卡点计算:系统采取一定的卡点策略(即将相邻链路上归属于不同项目和任务负责人的任务作为卡点),计算出此 DAG 中的部分需要被签署的任务,此类任务称为“卡点任务”,这个过程则称之为卡点计算。
SLA 推荐计算:利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐 SLA,这个过程称之为SLA 推荐计算。
申报签署流程如下所示:
SLA 保障主要包括 SLA 申报、审批、签署、管理、实例监控等功能,主要如下:
SLA申报、审批和签署
提供以申报单签署的方式达成 SLA 协议的服务,包括申报单的生命周期管理操作、申报任务的链路分析,以及达成 SLA 之后的系统保障监控,均服务于申报签署流程。
实例监控
提供任务T-1日的SLA履约情况,细分展示任务的延迟情况或者一个任务不同等级的延迟情况。
申报单监控
根据申报点签署的 SLA 时间,对申报单进行 SLA 达成监督。