1 概述
任务执行前,如需要依赖上游 Hive 表某个或某几个分区数据就绪才可执行时,可将数据依赖转化成 Hive-Sensor 任务依赖;
任务执行前,如需要依赖上游 HDFS 数据就绪才执行当前任务时,可将 HDFS 数据依赖转化成 HDFS-Sensor 任务依赖。
2 注意事项
- 当项目绑定引擎为火山引擎 E-MapReduce(EMR)类型时,才可见 EMR Sensor 任务。详见创建集群。
- 若仅开通 DataLeap 版本中湖仓一体的服务,项目不支持绑定 EMR 引擎。详见DataLeap 公有云版本功能差异。
- 已在 DataLeap 租户控制台中,绑定相应的 EMR Hadoop 集群实例。详见绑定 Hadoop 集群。
- 在 DataLeap 项目控制台中,绑定 EMR Hadoop 集群实例。详见创建项目。
- Sensor 任务不需要设置偏移量,若下游依赖该 Sensor 任务需要设置偏移时,在对应任务的调度设置中,填写偏移量即可
- Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。
3 任务配置说明
3.1 新建任务
- 登录 DataLeap租户控制台 。
- 在概览界面,显示加入的项目中,单击数据开发进入对应项目。
- 在任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。
- 选择任务类型:
- 分类:数据开发
- 绑定引擎:EMR
- 关联实例:默认关联项目管理中绑定 EMR 引擎实例信息。
- 选择任务:EMR Sensor 类型,可以实现对 Hive 表数据和 HDFS 文件路径下数据的监控。
- 任务基本信息:
- 任务名称:输入任务名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要控制在127个字符以内。
- 保存至:选择任务保存目录位置。
- 任务描述:输入当前任务的描述。
3.2 EMR HDFS-Sensor 任务
- 任务名称:新建任务时输入的任务名称,您可在目录树的任务名称右侧“更多”操作中,单击“重命名”按钮,进行修改名称操作;
- 描述:添加描述方便后续查看和管理,非必填;
- 责任人:下拉选择任务所属责任人;
- 数据来源:实时任务产出;
- 实时任务:支持按照任务 ID、名称、产出数据保存路径搜索;
- 数据保存路径:输入 HDFS 数据保存的路径;
- 数据所属引擎:默认显示为创建任务时选择的 EMR 关联实例信息;
- SUCCESS 标签地址:HDFS 数据对应的 SUCCESS 地址,SUCCESS 标签地址中输入 ${date} 或 ${hour} 时,系统会根据标签自动识别分区:
- ${date} 业务时间日期,格式为:yyyymmdd,如:20150526
- ${hour} 业务时间整点,用于小时级别任务,格式为: hh,如:02
- 调度资源组:您可选择任务执行时,所使用的调度资源组,可选公共调度资源组或独享调度资源组。独享资源组操作详见独享调度资源组管理;
- 调度周期:希望 Sensor 任务执行的周期,如每天,或每小时;
- 执行时间:选择调度周期后,展示调度时间选择选项。小时级时,设置每次在某一小时的 XX 分执行,可以多选小时;天级别可设置每天 XX 时,XX 分执行。
- 检查次数:默认失败重试 600 次
- 检查间隔:每隔 5 min 重试一次
3.3 EMR Hive-Sensor 任务
- 任务名称:新建任务时输入的任务名称,您可在目录树的任务名称右侧“更多”操作中,单击“重命名”按钮,进行修改名称操作;
- 描述:添加描述方便后续查看和管理,非必填;
- 责任人:下拉选择任务所属责任人;
- 数据来源:实时任务产出;
- 实时任务:支持按照任务 ID、名称、产出数据保存路径搜索;
- 数据所属引擎:默认显示为创建任务时选择的 EMR 关联实例信息;
- 数据库:选择需要依赖的 Hive 分区表所在的数据库;
- 数据表:选择需要依赖的 Hive 分区表;
- 获取分区:
- 输入表名后,单击获取分区 ,若希望依赖分区为 App 的某一应用的分区,如:newarticels,则输入对应的分区名称即可;
- 日期分区可直接使用获取的 ${date} 的信息;
- 同一个分区字段依赖多个分区值时,可使用英文逗号分隔,如 aa,bb,cc;
- 调度资源组:您可选择任务执行时,所使用的调度资源组,可选公共调度资源组或独享调度资源组。独享资源组操作详见独享调度资源组管理;
- 调度周期:希望 Sensor 任务执行的周期,如每天,或每小时;
- 执行时间:选择调度周期后,展示调度时间选择选项。小时级时,设置每次在某一小时的 XX 分执行,可以多选小时;天级别可设置每天 XX 时,XX 分执行;
- 检查次数:默认失败重试 600 次;
- 检查间隔:每隔 5 min 重试一次。
3.4 调试运行
任务配置完成后,单击界面上方工具栏中的调试按钮,并选择业务日期进行调试。
注意
- 调试操作,直接使用线上数据进行调试,需谨慎操作。
- 本任务类型支持调试执行成功或失败后发送消息通知,您可根据业务情况,前往项目控制台 > 配置信息 > 消息通知设置中,选择是否开启任务调试运行成功或失败通知。
- 默认通知方式为邮箱,您需在“账号管理”中,提前绑定相应的安全邮箱信息;
- 您也可根据业务需要,自行配置飞书应用机器人,通过飞书的方式发送消息通知,飞书消息通知前置操作详见1.1 飞书应用机器人创建。
4 提交上线
任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。 单击操作栏中的保存和提交上线按钮,在弹窗中,需先通过提交上线流程,最后单击确认按钮,完成作业提交。详见5.1 离线任务提交。
后续任务运维操作详见:离线任务运维。