You need to enable JavaScript to run this app.
导航
规则管理
最近更新时间:2024.02.20 14:12:48首次发布时间:2023.07.07 19:35:10

规则管理界面,您可以基于平台提供的系统规则进行自定义规则组合,以满足自己业务场景下的治理诉求。支持对平台提供的系统规则和自定义组合创建的规则进行统一管理,对一些常用的、治理价值较大的规则项,也可将其分享至平台公共规则池,进行公共规则沉淀等操作。

1 前提条件

已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息

2 创建规则

  1. 登录 DataLeap 控制台

  2. 在概览界面,单击数据治理 > 规划诊断 > 规则管理 > 我的规则,进入我的规则列表界面。

  3. 在我的规则界面,单击右上角创建规则按钮,进入创建规则窗口:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    基本信息

    *规则名称

    输入规划方案的方案名称。输入规则名称,方便后续通过规则名称来筛选规则。

    *治理场景

    选择规则治理的场景,支持选择存储、计算、质量治理场景。

    • 存储场景:治理对象为火山引擎 E-MapReduce(EMR)Hive 表或湖仓一体分析服务(LAS)表相关的治理。
    • 计算场景:治理对象为数据开发项目中任务相关的治理。
    • 质量场景:治理对象为 EMR Hive 、LAS 表或任务相关的治理。

    *治理对象

    不同治理场景下,支持 EMR Hive 表、LAS 表、数据开发项目三种治理对象选择。

    规则口径

    输入描述规则口径,用于在检测结果中展示口径,以提供规则说明。

    规则配置

    规则范围

    不同治理场景下不同的治理对象,对应提供不同的系统规则范围,您可依据实际场景进行范围选择。详见下方系统规则明细。

    *规则条件

    不同治理场景的治理对象,系统提供了不同的规则条件,详见下方系统规则明细。

    1. 单条规则支持:>、<、>=、<=、=、!=、包含、不包含、匹配、不匹配等判断条件;
    2. 单击添加条件按钮,支持多个规则同时添加,多个规则支持选择且/或的逻辑组合。
    3. 单击添加条件组按钮,您可在当前规则下,创建多个子级规则。

    *优化建议

    填写该规则对应的优化建议,用于在检测结果中展示建议详情,以提供治理行动参照。

    *治理操作

    依据选择的规则条件,您可根据实际情况,选择添加不同的治理操作:

    • 表类型推荐操作:
      • 修改TTL
      • 删除表
      • 补齐元信息
      • 处理表风险
      • 更改存储格式
      • 调整质量监控
      • 修改表负责人
    • 任务类型推荐操作:
      • 关闭任务
      • 优化任务
      • 配置/调整告警配置

    说明

    会默认添加的治理操作,不支持删除,您可通过调整上方规则条件进行替换。

  4. 创建规则配置完成后,单击确定按钮,完成创建。

3 管理规则

规则创建完成后,您可在我的规则界面中看到已创建的规则,您可进行以下操作:

  • 搜索规则:通过输入规则名称来查询您自建的规则。
  • 单击操作列中的详情按钮,在右侧查看当前规则的详细信息。
  • 单击操作列中的编辑按钮,对已建的规则再次进行修改编辑。

    注意

    规则处于禁用状态,才可进行编辑。

  • 单击操作列中的启用/禁用按钮,将规则进行启用/禁用状态的修改。
  • 单击操作列中的分享按钮,将已启用的规则分享至公共规则池中,所有用户可直接复用该规则。
  • 单击操作列中的删除按钮,将已禁用的规则,从我的规则列表中删除。

4 公共规则

公共规则池中展现了各个业务沉淀的规则,您可直接复用规则,在创建规划方案中使用;分享至公共规则池中的规则,您也可以对其进行管理操作。
在左侧导航栏中,单击公共规则,进入到公共规则池中,您可进行以下操作:

  • 规则筛选:您可以通过输入规则名称规则内容来对公共规则池中的规则进行搜索筛选,也可通过下拉选择治理场景来区分。
  • 查看规则详情:单击规则列表中操作列下的详情按钮,查看当前规则的详细配置信息。
  • 删除规则:当前登录控制台的账号责任人,单击操作列中的删除按钮,可删除责任人自己创建的规则。
  • 排序:您可单击使用次数字段旁的排序按钮,依据规则被使用的次数进行升序或降序排列。

图片

5 系统规则明细:

  • 存储治理场景

    治理对象

    规则范围

    规则条件

    EMR Hive、LAS 表

    • 表创建时间
    • 表下游任务数
    • 逻辑存储
    • 物理存储
    • 存储量 TOP
    • 存储健康分
    • 表生命状态
    • 无任务表
    • 分区总数
    • 生命周期:检查 Hive 表的生命周期。

      说明

      规则条件配置时,需注意:

      • 判断值设置为-1时:为永久保存的数据表;
      • 判断值设置为-100时:为非分区表无法设置TTL
    • 设置与推荐 TTL 差值比:(设置的生命周期-推荐的生命周期)/ 推荐的生命周期 (若生命周期为永久,默认无限大)
    • 表未更新天数:表所在路径的最后更新时间与现在的时间间隔。
    • 文件大小异常:
      • 小文件:分区文件数>200,平均文件大小小于10M;或分区文件数>200,平均文件大小小于50M;或分区文件数>200,平均文件大小小于100M。
      • 大文件:分区文件数>200,平均文件大小大于5G。
  • 计算治理场景

    治理对象

    规则范围

    规则条件

    数据开发项目

    • 任务创建时间
    • Vcore 7日平均消耗 TOP
    • Mem 7日平均消耗 TOP
    • Vcore 7日平均消耗
    • Mem 7日平均消耗
    • 计算健康分
    • 高耗时任务
    • 近一周实例平均运行时间 TOP
    • 近一周实例平均运行时间

    实例失败持续天数:任务实例连续失败的天数。

    说明

    失败定义:当天所有的系统调度实例都失败

  • 质量治理场景

    治理对象

    规则范围

    规则条件

    EMR Hive、LAS 表

    下游表数量

    • 表和任务负责人不一致:表的负责人和表对应的任务负责人不一致。
    • 层级信息缺失:EMR Hive、LAS 表缺失层级信息。

    数据开发项目

    有*个正常状态的下游任务

    • 缺失质量监控:缺失表行数监控。
    • 缺失告警配置:任务所在基线或任务监控没有配置告警方式,或者没有配置产出时间监控。