1 概述
SLA 保障平台以申报单签署的形式达成 SLA 协议,来实现 SLA 保障。签署过程中,先通过 “系统卡点计算” 减少待签署任务的数量,再通过 “SLA 推荐计算” 自动签署部分任务,最后为剩下的待签署任务智能提供合适的 SLA,从而实现流程优化,进一步降低签署成本。
- 卡点计算:系统采取一定的卡点策略(即将相邻链路上归属于不同项目和任务负责人的任务作为卡点),计算出此 DAG 中的部分需要被签署的任务,此类任务称为“卡点任务”,这个过程则称之为卡点计算。
- SLA 推荐计算:利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐 SLA,这个过程称之为SLA 推荐计算。
申报签署流程如下所示:
下面将为您详细介绍实现SLA保障的整体流程。
2 准备工作
发起SLA申报前,请先配置所需的治理团队和数据团队。创建的团队在整个数据治理产品团队视角中可直接使用。
2.1 创建治理团队
申报SLA 时,需选择治理团队,用于确定该申报归属哪个治理团队负责。经治理团队成员审批通过后,申报即可纳入治理范围,治理工作主要包括SLA延迟优化、组织事故复盘等。
- 登录 DataLeap 控制台。
- 选择数据治理 > 工作台 > 系统配置 > 治理团队配置,进入治理团队配置页面。
- 单击创建治理团队按钮,在弹出的窗口中,设置团队信息后,单击确定按钮,完成创建。
主要配置信息举例如下:
- 名称:自行设定,如测试治理团队。
- 团队成员:负责审批、治理绑定的 SLA 申报。默认设置为当前用户,可输入用户账号关键词后下拉选择,支持设置多个。
- 描述:治理团队的描述信息,可填写该团队的背景、治理范围、治理目的等。
2.2 创建数据团队
数据团队主要负责任务和数据资产的开发与维护。您可创建数据团队,并从项目维度圈选出数据团队需治理的资产范围。
- 登录 DataLeap 控制台。
- 选择数据治理 > 工作台 > 系统配置 > 数据团队配置,进入数据团队配置页面。
- 单击数据团队目录栏顶端 + 按钮,在新建团队页面,设置相关信息后,单击确定按钮,二次确认后完成创建。
主要配置信息举例如下:
- 团队名称:自行设定,长度不超过50个字符,如测试数据团队。
- 团队负责人:输入账号关键词后下拉选择,支持设置多个。
- 治理POC:负责审批SLA及团队资产的成本治理,下拉可选已创建的治理团队。
- 按数据开发项目关联:数据团队关联的项目,下拉可选已创建的项目,支持设置多个。
注意
- 若系统提示某个项目已关联某个团队,则提交后原团队将移除该项目,请慎重设置。
- 项目范围决定SLA申报时任务团队的选择。
3 SLA保障实现流程
3.1 SLA申报
若您对某个任务有明确的 SLA 要求,希望该任务的上游对其承诺并保障 SLA,那么可以对该任务进行申报。
登录 DataLeap 控制台。
选择数据治理 > SLA保障 > 申报单管理 > 我的申报单, 进入我的申报单页面。
单击发起申报按钮,在发起申报页面,填写申报信息。
SLA 申报相关参数说明如下表所示。
参数 | 说明 |
---|
*任务名称 | 申报SLA的任务。仅支持已发布的天级、小时级离线任务,输入任务名称关键词或任务ID后下拉可选。
系统会根据该任务血缘,识别上游需签署 SLA 的任务,并通过任务完成情况来判定SLA 的达成情况。 说明 当任务依赖链路不合理(超300个任务)时,会导致申报无法通过,需合理设置申报内容。 |
项目 | 任务所属项目。选择任务后,自动填充,不可编辑。 |
任务负责人 | 任务的负责人。选择任务后,自动填充,不可编辑。
该参数可在数据开发平台上进行更改,并在 T+1 天后同步至本平台。 |
数据团队 | 负责对应项目下的相关任务和数据资产的开发与维护。
选择任务后,自动填充项目关联的数据团队,不可编辑。 |
*数据等级 | 任务的SLA申报等级,等级由高到低依次有D1、D2、D3三个选项,按需选择。 - D1:级别内容包括如下,数量占比为10%。
- 推荐、广告、MP后台等核心线上服务所依赖的数据。
- 支持全局决策分析,需要在公司层面统一的指标(如日活、新增)和维度(如地理位置、设备、性别)。
- D2:级别内容包括如下,数量占比为20%。
- 支持业务决策分析,业务线独有的核心指标和核心维度。
- 业务分析核心依赖,明确需要保障的数据。
- D3:其他数据,数量占比70%。
说明 当数据等级或任务依赖链路不合理(超300个任务)时,会导致申报无法通过,需合理设置申报内容。 |
*期望产出时间 | 用户期望该任务在什么时候产出(非最终SLA),该信息表明申报方的需求意愿,可供上游签署SLA时进行参考。具体的SLA签署结果,需要多方协同后决定。
支持北京时间“日期+时间”的格式,其中日期支持T+1、T+2、T+3、T+4四个选项,下拉可选。 说明 T 代表业务日期当日,T+1 代表业务日期次日,以此类推。 |
*治理团队 | 表示该申报归属哪个治理团队负责。
默认填充申报任务列表中第一个任务关联的数据团队所绑定的治理POC,支持修改,下拉可选其他已创建的治理团队。 |
*申报理由 | 申报的上下文、背景等,供审批及签署人员审核。
例如:任务延迟10 min影响推荐各模型停更,影响用户体验/广告模型停更,造成资损。 |
单击确定按钮,在弹出的校验结果对话框中,单击继续提交按钮提交申报,申报信息会展示在申请记录页面。
3.2 SLA审批
仅 SLA 申报绑定的治理团队的管理员才可执行审批操作。
- 选择申报单审批,进入申报单审批页面。
- 单击申报信息操作列的通过按钮,二次确认后,批准通过该申报。若有多条待审批,支持批量审批。
2.3 SLA 签署
审批通过后,申报将进入签署中环节。仅任务负责人可以执行 SLA 签署操作。
- 选择 SLA 签署 > 可签署,进入 SLA 签署页面。
- 单击该申报任务的签署按钮,在SLA签署页面,选中同意签署信息后,单击确定按钮完成SLA签署。
3.4 确认签署
SLA签署完成后,申报人需进行最终确认。
- 选择申报单监控, 进入申报单监控页面。
- 选择签署中状态的申报单,可快速查找要确认的申报单。
- 单击该任务的申报单ID,进入该申报单详情页面,单击确认签署完成按钮完成确认。
3.5 实例监控
当一个申报单完成签署之后,平台将对申报单中的任务进行保障服务。平台会对所有任务的 SLA 进行监控,并在 SLA 状态变化时实时给相关人员发送通知。
选择实例监控,进入实例监控页面,可查看相应实例的SLA延迟情况,并登记问题以便复盘管理。
- 若存在SLA延迟问题,可通过去登记按钮进行问题登记。
- 若SLA延迟问题严重,可在申报单监控页面,对该任务进行事故登记。
若您在SLA管理页面订阅了 SLA 播报推送,当 SLA 的状态变化时,系统会及时播报消息通知相关人员,以便相关人员快速做出应对措施。