任务创建,是指可视化建模任务的创建环节,通常包含新建任务、数据连接等步骤。可视化建模任务支持抽取数据源中的数据,通过拖拽形式添加数据处理节点,将处理完成的数据输出到目标源中。
说明
本文将结合产品实操界面介绍 实时任务 的创建步骤。
新建数据连接。 新建任务页面,点击左上方的加号,添加数据连接;
注意
移除数据连接。 可视化建模任务创建页面的数据连接列表中,点击具体某个数据连接右侧的删除按钮,即可移除数据连接。
通过点击节点右侧加号添加并配置处理节点,拖拽上一节点右侧加号和下一节点左侧原点连线,配置节点流转关系。点击“应用”后可展开处理后的数据结果预览。
如下图所示,点击输入数据算子块的输出+号,展开操作节点:输出、数据清洗,点击其中一类,则可看到可以使用的算子。
常用算子说明
配置中可以选中某节点并运行节点,进行运行检查。需注意的是,当上游节点更改后,必须重新执行上游节点后才能执行当前及下游节点。
添加输出节点,选择输出到已有数据集或新建数据集。
已支持输出数据集:以ClickHouse存储的数据集
支持配置数据生命周期, 即抽取至系统存储中数据的有效保留天数,非分区表根据数据更新时间保留数据,日期分区则根据分区日期保留数据,生命周期外的数据每天0点会自动清除。
数据生命周期的高级设置: 即在保留天数的基础上,可以对历史数据选择性的保留。
注意
季度为自然季度(如1-3月为一季度)
保留周期越久占用的系统存储资源越多,请根据需要选择合理的生命周期范围
完成配置后点击右上角 保存 按钮即可。
可视化建模实时任务支持对消费端、任务输出端进行任务监控。
(1)消费延迟监控:消费延迟是指Kafka的消费者(Consumer)读取消息的进度落后于生产者(Producer)生产消息进度,过高的消费延迟可能会导致数据处理的延时,影响实时性,并可能导致内存溢出或其他资源问题,因此及时监控和管理消费延迟是保证Kafka稳定运作的重要环节。
延迟条数= 生产者的偏移量-消费者的偏移量 。可配置告警规则“当连续XX分钟,延迟数大于XX进行告警”。
(2)写入断流监控:写入断流指的是上游kafka在一段时间内,无数据写入,是对上游数据产出稳定性的监控。可配置告警规则“一个时间区间内,kafka topic连续XX分钟,没有数据写入时告警”
(3)写入上涨监控:写入上涨指的是上游数据输入不稳定,在某个时间段,QPS突然升高,上游数据质量可能出现问题。
可配置的告警规则“是数据连续在XX分钟内,QPS一直大于某个值时进行告警”。
(1)任务运行状态监控:当任务运行中变为暂停时发送告警(不包含人工手动停止任务运行的情况)。
(2)脏数据数量监控:脏数据指的是一段时间内因不符合数据规则未成功写入的数据(数据丢失),目前丢失的环节包含(1)输入节点的推送数据与topic表结构有差异;(2)处理阶段:OneID未关联上;
可配置的告警规则:“连续XX分钟,脏数据大于多少条时进行告警”。