You need to enable JavaScript to run this app.
导航
配置使用 EMR 模板规则
最近更新时间:2024.11.29 16:40:00首次发布时间:2024.11.29 16:40:00

模板意在定义监控校验规则,方便后期复用。数据质量支持 EMR、LAS 等多种引擎类型的模板规则,其中 EMR 集群需上传 Jar 包后才可正常使用。本文将为您介绍如何配置 EMR 模板规则。

1 前提条件

  • 已在概览页面购买大数据分析湖仓一体DataOps 敏捷研发分布式数据自治解决方案。
  • 已购买 EMR 引擎服务,才可使用相应引擎功能。

2 EMR 集群初始化

EMR 引擎上传 Spark Jar 包后才能正常使用。若没有上传,当选择相应 EMR 引擎时,系统会弹窗提示您上传,操作如下:

  1. 登录 DataLeap 控制台。
  2. 选择数据质量 > 数据监控 > 离线数据监控 > 监控对象,直接进入监控对象的模板规则页面。
  3. 在页面右上角的项目下拉列表中,选择要管理的项目。
  4. 引擎下拉列表中,选择 EMR 引擎和对应的实例,弹出作业程序包未上传提示窗口。
    Image
  5. 单击确定按钮上传程序包,等待几秒钟,待系统弹出上传成功的提示,则表示上传成功。

说明

  • 具备 EMR 引擎的根目录读写权限的账号才能执行上传操作,主账号默认具备该权限。
  • 数据监控数据探查数据对比页面选择 EMR 引擎实例后,系统都会进行 Spark Jar 的扫描,可通过任一入口进行上传,上传成功一次即可。

3 创建并运行规则

Spark Jar 包上传成功后,即可创建规则,操作如下:

  1. 单击 +Hive监控对象按钮,在弹出的窗口中,设置监控对象信息。

    1. 选择按库录入后,从下拉框中选择要监控的库表。
    2. 单击添加按钮,添加一张表。可分次添加多个库表。
      Image
  2. 单击确定按钮,对象添加成功并显示在监控对象列表中。
    Image

  3. 单击该监控对象的新建规则按钮,进入该对象的新建监控规则页面,设置规则信息。
    Image
    规则参数设置情况如下表所示。欲了解其他配置情况的详细介绍可参见配置Hive模板规则

    参数

    说明

    新建监控规则

    *选择分区

    根据表的现有分区,自动识别,可编辑。
    若没有可用分区,则通过添加分区按钮添加。

    规则配置

    *规则类型

    下拉选择表行数

    说明

    表行数是指计算该分区下的表行数,通常用于校验任务完成后产出的分区数据为空的异常情况,或者根据自己需求检验表行数的一些波动情况。表行数的计算定义:count(*)

    *规则名称

    监控规则名称,自动填充,格式为规则类型_创建日期_创建时间,可编辑。

    *报警条件

    设置为 数值=0
    当监控指标被计算出来后,如果满足该报警条件,就会发出报警。

    说明

    数值即定义的计算指标本身,如sum(money)、count(*)等,该指标会直接跟设定的阈值做对比,判断是否报警。例如:

    • 监控规则:表行数数值超过2000发出报警。
    • 报警判断:假设监控检测出的表行数数值为2500,与设定的阈值(2000)做对比,发现超过阈值,于是发出报警。

    执行方式

    *执行方式

    监控规则的执行方式,选择定时调度,即自行设置监控规则的执行时间。

    *执行频率

    任务监控规则执行频率,选择分钟级

    *执行时间

    具体的执行时间,时间间隔选择 10执行时刻设置为 0

    报警设置

    *报警渠道

    选择短信

    说明

    当选择短信报警时,默认会发送邮箱+站内信

    *报警对象

    选择接收报警的用户,选择当前用户。

    *报警发送

    报警发送次数设置为 1

    *发送间隔

    报警发送的间隔时间,设置为 5 分钟。

    *报警免打扰

    选择关闭

  4. 单击完成并试跑按钮,在弹出的窗口中选择试跑时间后,单击确定按钮,完成规则创建并直接试跑调试。

4 查看报警结果

  1. 待运行结束后,若有报警情况,可将鼠标悬停在报警条数上,显示最新报警信息。
    Image
  2. 单击查看按钮,进入结果详情页面,可查看监控情况及运行日志。
    Image