*引擎 | 创建规则使用的 EMR 引擎,下拉可选 EMR 引擎及已创建的引擎实例。
仅当创建基于 EMR 引擎执行的规则时,需设置该参数。 |
双数据源校验逻辑-选择数据源A |
*数据源类型 | 进行比对的数据源A的类型,下拉可选。 - 直连引擎执行支持选项 mysql连接串、云数据库MySQL版、EMR Hive、oracle连接串、EMR Serverless Hive、ByteHouse云数据仓、EMR Serverless StarRocks。
- 基于 EMR 引擎执行支持选项 MySQL、StarRocks、Doris、Hive。
|
*数据源 | 使用的所选类型的数据源,自动填充一个已在控制台中登记的数据源,下拉可选其他。
登记数据源的相关说明请参见数据源管理。 |
*计算组 | mysql连接串或 oracle连接串对应的计算组,下拉可选当前项目已绑定的计算资源组。绑定资源组的相关操作请参见创建项目。 说明 - 当数据源类型为 mysql连接串或 oracle连接串时,且选择数据源后,才设置该参数。
- 请保证资源组VPC与数据源所在网络已经打通(数据源在资源组VPC内,或已通过公网、专线等网络方案打通)。
|
*XX查询语句 | 对应所选类型的查询语句,如 MySQL查询语句,按需输入。 |
双数据源校验逻辑-选择数据源B |
*数据源类型 | 进行比对的数据源B的类型,下拉可选。 - 直连引擎执行支持云数据库MySQL版、EMR Hive、EMR Serverless Hive、ByteHouse云数据仓、EMR Serverless StarRocks 五个选项。
- 基于 EMR 引擎执行支持 MySQL、StarRocks、Doris、Hive 四个选项。
|
*数据源 | 使用的所选类型的数据源,自动填充一个已在控制台中登记的数据源,下拉可选其他。 |
*XX查询语句 | 对应所选类型的查询语句,如 MySQL查询语句,按需输入。 |
双数据源校验逻辑-关联维度(通过关联维度可实现检验字段的细粒度比对) |
source维度 | 源端数据源A查询语句产出的维度字段,可配置多个。 说明 配置多个维度字段可能会导致校验任务执行时长增加。 |
target维度 | 目标端数据源B查询语句产出的维度字段,可配置多个。 |
双数据源校验逻辑-字段映射及逻辑检查 |
*source字段 | 源端数据源A查询语句产出的指标字段,至少配置一个。 |
*target字段 | 目标端数据源B查询语句产出的指标字段,至少配置一个。 |
*报警条件 | 是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。
报警条件支持不相等、差值绝对值大于两种报警选项。 - 不相等:若A指标和B指标不相等,则发出报警。
- 差值绝对值大于:若A指标和B指标的差值绝对值大于所设置的数值,则发出报警。
说明 一组指标字段可设置一个报警条件,多组字段之间的报警关系为或。 |
设置监控规则 |
*规则名称 | 该监控规则的名称,根据所选两端数据源类型和日期自动创建,支持手动修改。 |
描述信息 | 规则的描述信息。 |
设置监控规则-执行方式 |
*执行方式 | 监控规则的执行方式,支持关联任务、定时调度和暂不设置三种方式。 - 关联任务:按照关联任务的调度时间执行。
- 定时调度:自行设置监控规则的执行时间。
- 暂不设置:不自动调度执行,可按需手动调度。
|
*任务名称 | 要关联任务的名称,可通过任务名称关键词或ID进行搜索选择。
当执行方式选择关联任务时,需设置该参数。 说明 - 仅支持关联当前项目下调度频率为小时/天/周/月级的离线任务。
- 该任务每次运行完成(包括调度、重跑、回溯),会启动该监控规则的执行。
|
*规则强弱 | 提供强、弱两个配置选项。 - 当选择强时,需设置熔断方式。任务执行完成之后会进入强规则运行阶段,由熔断方式决定下游任务运行情况。
- 如果是弱规则,任务会继续运行,如果失败仅发生报警通知,不会阻塞下游任务运行。
当执行方式选择关联任务时,需设置该参数。 |
*熔断方式 | 如果是强规则,可选择以下两种熔断方式: - 在规则运行完成之前,实例将一直处于运行中状态:是指若触发强规则告警,则实例状态置为失败,阻塞下游任务运行;若正常完成则置为成功。
- 若规则运行超过 X 分钟仍未结束,直接置实例为成功:是指规则运行超过设定时间,会触发告警通知,下游仍会继续运行,但可能存在数据质量污染风险,需要及时关注监控结果。超时时间可自行设定,取值范围为0~200。
|
*执行频率 | 任务监控规则执行频率,提供分钟级、小时级、天级三个选项。
当执行方式选择定时调度时,需设置该参数。 |
*执行时间 | 根据执行频率,设置具体的执行时间。
当执行方式选择定时调度时,需设置该参数。 |
报警设置 |
*报警渠道 | 支持邮箱+站内信、短信、电话、Webhook 和飞书的告警方式,支持多选。 说明 - 当选择短信报警时,默认会发送邮箱+站内信。
- 配置相应的飞书报警机器人后,才会显示飞书选项。报警机器人由您自行创建并配置,相关操作说明请参见告警机器人配置。
- 当选择电话报警时,会默认选中飞书,若支持飞书渠道,则会发送飞书消息。
|
*hookUrl | Webhook 请求地址,以 http 或 https 开头。
从下拉列表中选择 http 或 https,填写 Webhook URL 地址。欲了解详细的配置说明,请参见 Webhook 使用说明。
当报警渠道选择 Webhook 时,需设置该参数。 说明 - 设置 Webhook 后,通知消息将主动推送至对应 hookUrl 中。
- 目前已支持飞书、钉钉和企业微信接收 Webhook 消息,填写飞书、钉钉或者企业微信机器人的 hookurl 后,通知消息将推送至对应的群中。设置Webhook机器人时,需满足以下要求:
- 微信:无要求,直接创建相应的机器人后,复制生成的 WebhookUrl 即可。
- 钉钉:创建机器人后,需勾选其安全设置项下的自定义关键词选项,并设置一个关键词为数据质量产品。
- 飞书:创建机器人后,需勾选其安全设置项下的自定义关键词选项,并设置两个关键词 DataLeap 和 dataleap。
|
*报警对象 | 接收报警的用户、飞书群或值班计划接收人。 - 当报警渠道选择邮箱+站内信、短信或 Webhook 时,需选择接收报警的用户或值班计划。
- 用户:输入用户账号关键词后,在下拉列表中选择,支持设置多个。
- 值班计划:输入值班计划名称的关键词后,在下拉列表中选择。设置后,报警消息将发送至值班计划中的接收人。
- 当报警渠道选择电话或飞书时,需设置接收报警消息的用户、值班计划或您所加入的飞书群。
- 用户:报警消息将发送至用户名对应的飞书中。
输入用户账号关键词后,在下拉列表中选择,支持设置多个。 - 飞书群:报警消息将发送至飞书群ID对应的飞书群中。
可通过飞书开放平台的开发工具模块,查看要输入的飞书群ID。获取ID的相关说明可通过下拉列表中的获取群ID查看。 - 值班计划:报警消息将发送至值班计划中接收人的飞书中。
输入值班计划名称的关键词后,在下拉列表中选择。
说明 - 将配置好的数据质量报警机器人加入飞书群后,才可发送消息至相应的飞书群。
- 可通过查看值班计划按钮,查看值班计划列表及值班设置是否符合预期,并支持添加新值班计划,相关操作说明请参见值班管理。
|
*报警形式 | 支持普通和紧急两种形式。
当报警渠道选择飞书时,才需设置该参数。 |
*报警发送 | 报警发送的次数。 - 发送次数 X:可按需配置发送的次数,默认 1 次。
- 无限制,直至手动ACK解除:无次数限制,若取消发送,需手动ACK(Acknowledgement)来解除报警。
- 报警频率
若不及时ACK,系统会从首次报警起至次日(天级监控至次日00:00点;小时级监控至次日对应小时)按照固定频率发起规则校验,若不通过则触发报警。 - 报警ACK
ACK表示您已知晓这个报警信息,并会采取相应行动处理,不希望再次收到报警。ACK某个监控后,在设置的时间段内不会重复报警,最长23小时59分钟,过期后将再次发起重复检测。
综上,建议及时ACK或进行任务/数据处理!
说明 - 当报警渠道选择飞书时,才支持无限制,直至手动ACK解除选项。收到报警消息后,可在飞书端执行报警ACK操作。
- 当报警形式选择紧急时,自动选中无限制,直至手动ACK解除,不可编辑。
|
*发送间隔 | 报警发送的间隔时间,默认5分钟,可编辑。 |
*报警免打扰 | 可选择是否开启报警免打扰。
当选择开启时,可按需设置免打扰的时间段。 |