规则管理界面,您可以基于平台提供的系统规则进行自定义规则组合,以满足自己业务场景下的治理诉求。支持对平台提供的系统规则和自定义组合创建的规则进行统一管理,对一些常用的、治理价值较大的规则项,也可将其分享至平台公共规则池,进行公共规则沉淀等操作。
1 前提条件
已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
2 创建规则
登录 DataLeap 控制台 。
在概览界面,单击数据治理 > 规划诊断 > 规则管理 > 我的规则,进入我的规则列表界面。
在我的规则界面,单击右上角创建规则按钮,进入创建规则窗口:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|
基本信息 |
*规则名称 | 输入规划方案的方案名称。输入规则名称,方便后续通过规则名称来筛选规则。 |
*治理场景 | 选择规则治理的场景,支持选择存储、计算、质量治理场景。 - 存储场景:治理对象为火山引擎 E-MapReduce(EMR)Hive 表或湖仓一体分析服务(LAS)表相关的治理。
- 计算场景:治理对象为数据开发项目中任务相关的治理。
- 质量场景:治理对象为 EMR Hive 、LAS 表或任务相关的治理。
|
*治理对象 | 不同治理场景下,支持 EMR Hive 表、LAS 表、数据开发项目三种治理对象选择。 |
规则口径 | 输入描述规则口径,用于在检测结果中展示口径,以提供规则说明。 |
规则配置 |
规则范围 | 不同治理场景下不同的治理对象,对应提供不同的系统规则范围,您可依据实际场景进行范围选择。详见下方系统规则明细。 |
*规则条件 | 不同治理场景的治理对象,系统提供了不同的规则条件,详见下方系统规则明细。 - 单条规则支持:>、<、>=、<=、=、!=、包含、不包含、匹配、不匹配等判断条件;
- 单击添加条件按钮,支持多个规则同时添加,多个规则支持选择且/或的逻辑组合。
- 单击添加条件组按钮,您可在当前规则下,创建多个子级规则。
|
*优化建议 | 填写该规则对应的优化建议,用于在检测结果中展示建议详情,以提供治理行动参照。 |
*治理操作 | 依据选择的规则条件,您可根据实际情况,选择添加不同的治理操作: - 表类型推荐操作:
- 修改TTL
- 删除表
- 补齐元信息
- 处理表风险
- 更改存储格式
- 调整质量监控
- 修改表负责人
- 任务类型推荐操作:
说明 会默认添加的治理操作,不支持删除,您可通过调整上方规则条件进行替换。 |
创建规则配置完成后,单击确定按钮,完成创建。
3 管理规则
规则创建完成后,您可在我的规则界面中看到已创建的规则,您可进行以下操作:
- 搜索规则:通过输入规则名称来查询您自建的规则。
- 单击操作列中的详情按钮,在右侧查看当前规则的详细信息。
- 单击操作列中的编辑按钮,对已建的规则再次进行修改编辑。
- 单击操作列中的启用/禁用按钮,将规则进行启用/禁用状态的修改。
- 单击操作列中的分享按钮,将已启用的规则分享至公共规则池中,所有用户可直接复用该规则。
- 单击操作列中的删除按钮,将已禁用的规则,从我的规则列表中删除。
4 公共规则
公共规则池中展现了各个业务沉淀的规则,您可直接复用规则,在创建规划方案中使用;分享至公共规则池中的规则,您也可以对其进行管理操作。
在左侧导航栏中,单击公共规则,进入到公共规则池中,您可进行以下操作:
- 规则筛选:您可以通过输入规则名称、规则内容来对公共规则池中的规则进行搜索筛选,也可通过下拉选择治理场景来区分。
- 查看规则详情:单击规则列表中操作列下的详情按钮,查看当前规则的详细配置信息。
- 删除规则:当前登录控制台的账号责任人,单击操作列中的删除按钮,可删除责任人自己创建的规则。
- 排序:您可单击使用次数字段旁的排序按钮,依据规则被使用的次数进行升序或降序排列。
5 系统规则明细:
存储治理场景
治理对象 | 规则范围 | 规则条件 |
---|
EMR Hive、LAS 表 | - 表创建时间
- 表下游任务数
- 逻辑存储
- 物理存储
- 存储量 TOP
- 存储健康分
- 表生命状态
- 无任务表
- 分区总数
| - 生命周期:检查 Hive 表的生命周期。
说明 规则条件配置时,需注意: - 判断值设置为-1时:为永久保存的数据表;
- 判断值设置为-100时:为非分区表无法设置TTL
- 设置与推荐 TTL 差值比:(设置的生命周期-推荐的生命周期)/ 推荐的生命周期 (若生命周期为永久,默认无限大)
- 表未更新天数:表所在路径的最后更新时间与现在的时间间隔。
- 文件大小异常:
- 小文件:分区文件数>200,平均文件大小小于10M;或分区文件数>200,平均文件大小小于50M;或分区文件数>200,平均文件大小小于100M。
- 大文件:分区文件数>200,平均文件大小大于5G。
|
计算治理场景
治理对象 | 规则范围 | 规则条件 |
---|
数据开发项目 | - 任务创建时间
- Vcore 7日平均消耗 TOP
- Mem 7日平均消耗 TOP
- Vcore 7日平均消耗
- Mem 7日平均消耗
- 计算健康分
- 高耗时任务
- 近一周实例平均运行时间 TOP
- 近一周实例平均运行时间
| 实例失败持续天数:任务实例连续失败的天数。 |
质量治理场景
治理对象 | 规则范围 | 规则条件 |
---|
EMR Hive、LAS 表 | 下游表数量 | - 表和任务负责人不一致:表的负责人和表对应的任务负责人不一致。
- 层级信息缺失:EMR Hive、LAS 表缺失层级信息。
|
数据开发项目 | 有*个正常状态的下游任务 | - 缺失质量监控:缺失表行数监控。
- 缺失告警配置:任务所在基线或任务监控没有配置告警方式,或者没有配置产出时间监控。
|