初始化 |
绑定引擎 | 支持 LAS。 |
关联实例 | 默认default,下拉可选。 |
关联Schema | 关联数据库的 Schema。下拉可选,可输入数据库名称关键词快速筛选。 |
保存至 | 监控规则的保存路径,下拉可选。 说明 在配置项目的数据开发 > 任务开发 > 资源库页面,至少已创建一个子目录,才能下拉选择。 |
选择Topic |
类型 | 支持的 Topic 类型,支持选项 Kafka。 |
数据源 | Kafka 数据源,下拉可选已创建的数据源。 |
Topic名称 | Kafka 的 Topic名称,下拉可选已创建的Topic。 |
数据类型 | 支持Json。 |
监控数据源配置 |
TaskManager个数 | Flink 作业中 TaskManager 的数量,自动填充默认值,可编辑。 |
开启跨VPC访问能力 | 默认开启,不可编辑。 |
私有VPCID | 数据源关联的消息队列 Kafka 版实例的私有网络ID。
可登录消息队列 Kafka 版控制台查看相应信息。 |
子网ID | 数据源关联的消息队列 Kafka 版实例的子网 ID。
可登录消息队列 Kafka 版控制台查看相应信息。 |
安全组ID | 数据源关联的消息队列 Kafka 版实例的私有网络安全组 ID。
可登录消息队列 Kafka 版控制台,跳转至实例的私有网络页面查看。 |
单TaskManager内存大小(MB) | 单个 TaskManager 所占用的内存大小。 |
单TaskManager CPU数 | 单个 TaskManager 所占用的CPU数量。 |
单TaskManager slot数 | 单个 TaskManager 中slot的数量。 |
JobManager CPU数 | 单个 JobManager 所占用的CPU数量。 |
JobManager内存 | 单个 JobManager 所占用的内存大小。 |
监控规则配置
支持按时间字段延迟、字段监控、空值监控、自定义指标或 Schema校验进行配置。 |
规则名称 | 监控规则名称,可自行设置。 |
时间字段 | 根据Topic中该字段的取值,与该条数据进入Kafka的时间之间的差异来计算数据延迟。例如时间字段为A,数据进入Kafka的时间为T,则延迟为T-A。
当选择时间字段延迟页签时,需设置该参数。 |
字段格式 | 根据对应格式解析时间字段,并计算延迟指标。
提供毫秒级13位整数、秒级别10位整数、yyyy-MM-dd HH:mm:ss三种选项,下拉可选。
当选择时间字段延迟页签时,需设置该参数。 |
监控字段 | Topic内需要监控的字段名称。
当选择字段监控、空值监控页签时,需设置该参数。 |
字段类型 | 根据实际的监控字段类型选择。
当选择字段监控、空值监控页签时,需设置该参数。 |
自定义逻辑 | Kafka数据已自动映射至manta_source表,需通过select ***** from manta_source编写自定义SQL。
当选择自定义指标页签时,需设置该参数。 |
SQL中用的Json字段 | 设置SQL中用的Json字段的字段名称和字段类型。 - 字段名称:填入SQL中使用到的Json字段Schema信息,以便正确解析SQL。
- 字段类型:下拉可选。
当选择自定义指标页签时,需设置该参数。 |
监控指标 | SQL产出的监控指标名称。
当选择自定义指标页签时,需设置该参数。 |
开启数据Filter | 可选择是否开启数据Filter。
若勾选,则对符合filter schema的数据进行校验;若不勾选,则不对数据做过滤。
当选择 Schema校验页签时,可设置该参数。 |
数据校验Schema | 根据该schema校验数据是否符合要求。如果某条数据不满足该schema,会被记为一条错误记录。
当选择 Schema校验页签时,需设置该参数。 |
报警粒度 | 可选择按整体或字段进行监控报警。
当选择字段报警时,需设置监控字段。
当选择 Schema校验页签时,需设置该参数。 |
时间窗口 | 提供 1分钟、3分钟、5分钟、10分钟、30分钟 五个选项,下拉可选。
流式规则的计算结果是时序数据,会按时间窗口切分成段。每隔一个时间窗口,检测前一段窗口内的数据是否触发报警。
举例:在5分钟窗口内,最大pct99延迟为10s,则会触发报警条件“pct99延迟>5s”;在10分钟窗口内,最小pct95延迟为5s,则会触发报警条件“pct95延迟<10s”。 |
报警条件 | 是指规则发出报警时,指标需要满足的条件。当监控指标被计算出来后,如果满足报警条件,就会发出报警。 - 当选择时间字段延迟、字段监控或自定义指标页签时,支持数值、分位数的报警,多个报警条件之间的关系为或。
- 数值:即定义的计算指标本身,如sum(money)、count(*)等,该指标会直接跟设定的阈值做对比,判断是否报警。
- Mean:计算30秒内的平均值。
- Max:计算30秒内的最大值。
- Min:计算30秒内的最小值。
- 百分位数:计算30秒内的百分位数,支持pct50、pct90、pct95、pct99、pct999等多个选项。根据当次监控规则计算出的指标结果,与某段时间内的该指标做比值,计算出分位数后,再与设定的阈值进行比较判断。
- 空值占比:仅当选择空值监控页签时,需设置该参数。
- 仅当选择 Schema校验页签时,需设置以下参数。多个报警条件之间的关系可设置为或或者且。
- 错误率:窗口内错误次数/窗口内统计的总数据条数。
- 错误率波动:本次统计的错误率/上次统计的错误率-100%。
|
*报警渠道 | 支持邮箱、短信、电话、Webhook 和飞书的告警方式,支持多选。 说明 - 配置相应的飞书报警机器人后,才会显示飞书选项。报警机器人由您自行创建并配置,相关操作说明请参见告警机器人配置。
- 当选择电话报警时,会默认选中飞书,若支持飞书渠道,则会发送飞书消息。
|
*hookUrl | Webhook 请求地址,以 http 或 https 开头。
从下拉列表中选择 http 或 https,填写 Webhook URL 地址。欲了解详细的配置说明,请参见 Webhook 使用说明。
当报警渠道选择 Webhook 时,需设置该参数。 说明 - 设置 Webhook 后,通知消息将主动推送至对应 hookUrl 中。
- 目前已支持钉钉和企业微信接收 Webhook 消息,填写钉钉或者企业微信机器人的 hookurl 后,通知消息将推送至对应的群中。
|
*报警对象 | 接收报警的用户、飞书群或值班计划接收人。 - 当报警渠道选择邮箱、短信或 Webhook 时,需选择接收报警的用户或值班计划。
- 用户:输入用户账号关键词后,在下拉列表中选择,支持设置多个。
- 值班计划:输入值班计划名称的关键词后,在下拉列表中选择。设置后,报警消息将发送至值班计划中的接收人。
- 当报警渠道选择电话或飞书时,需设置接收报警消息的用户、值班计划或您所加入的飞书群。
- 用户:报警消息将发送至用户名对应的飞书中。
输入用户账号关键词后,在下拉列表中选择,支持设置多个。 - 飞书群:报警消息将发送至飞书群ID对应的飞书群中。
可通过飞书开放平台的开发工具模块,查看要输入的飞书群ID。获取ID的相关说明可通过下拉列表中的获取群ID查看。 - 值班计划:报警消息将发送至值班计划中接收人的飞书中。
输入值班计划名称的关键词后,在下拉列表中选择。
说明 - 将配置好的数据质量报警机器人加入飞书群后,才可发送消息至相应的飞书群。
- 可通过查看值班计划按钮,查看值班计划列表及值班设置是否符合预期,并支持添加新值班计划,相关操作说明请参见值班管理。
|
*报警形式 | 支持普通和紧急两种形式。
当报警渠道选择飞书时,才需设置该参数。 |
*报警发送 | 报警发送的次数。 - 发送次数 X:可按需配置发送的次数,默认 1 次。
- 无限制,直至手动ACK解除:无次数限制,若取消发送,需手动ACK(Acknowledgement)来解除报警。
- 报警频率
若不及时ACK,系统会从首次报警起至次日(天级监控至次日00:00点;小时级监控至次日对应小时)按照固定频率发起规则校验,若不通过则触发报警。 - 报警ACK
ACK表示您已知晓这个报警信息,并会采取相应行动处理,不希望再次收到报警。ACK某个监控后,在设置的时间段内不会重复报警,最长23小时59分钟,过期后将再次发起重复检测。
综上,建议及时ACK或进行任务/数据处理!
说明 - 当报警渠道选择飞书时,才支持无限制,直至手动ACK解除选项。收到报警消息后,可在飞书端执行报警ACK操作。
- 当报警形式选择紧急时,自动选中无限制,直至手动ACK解除,不可编辑。
|
*发送间隔 | 报警发送的间隔时间,默认5分钟,可编辑。 |
*报警免打扰 | 可选择是否开启报警免打扰。
当选择开启时,可按需设置免打扰的时间段。 |
数据过滤 | 可选择是否开启过滤。
开启后,需输入SQL语句过滤。仅监控指定条件的数据,格式按 Flink SQL 的语法,不需要写WHERE。
当选择时间字段延迟、字段监控或控制监控页签时,可设置该参数。 |