DataLeap 数据开发支持对接不同引擎下的各种任务类型,您可通过创建开发任务来进行代码开发、运行查询等操作。本文将引导您快速了解一个完整的数据开发流程,提升您的开发效率。
1 前提条件
- 已创建火山引擎主账号或 IAM 子用户信息,并已完成个人认证和企业认证。详见账号准备。
- 开通 DataLeap 服务和业务所需的引擎服务。详见服务开通。
- 根据业务场景按需开通 DataLeap 任务所需的独享资源组服务。详见独享资源组管理。
- 创建 DataLeap 项目空间并且在项目控制台中绑定已开通的独享资源组与引擎服务。详见创建项目。
2 进入数据开发引导流程
- 登录DataLeap租户控制台。
- 在概览界面,显示新创建的项目中,单击 IDE 开发进入对应项目。

- 首次进入任务开发界面时,便可看到了解数据开发流程引导小窗。

- 关闭引导流程窗口后,您也可在左下角再次唤起任务开发流程引导窗口。

3 数据开发全流程

3.1 快速建表
EMR Hadoop、LAS Catalog、ByteHouse CDW、ByteHouse CE、EMR Serverless StarRock 等引擎类型,在 DataLeap 数据地图中支持使用可视化或 DDL 方式来创建引擎下的库表信息。
- 在数据开发界面右上角全部产品中,进入数据地图模块。

- 在数据地图上方导航栏中选择我的库表页签,进入 Table 管理界面。
说明
在进行引擎库表创建前,您需通过元数据采集能力,将引擎信息采集到数据地图中。详见元数据采集。

- 在我的库表界面中,您可进行相应引擎下的 DB 管理或 Table 管理操作。
操作详见各引擎的 DB 管理、Table 管理。
3.2 新建任务开发
引擎数据库表创建完成后,回到 DataLeap 任务开发界面,根据业务需求,选择对应的引擎节点类型,进行后续的开发流程。
新建任务操作如下:
- 在任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。
- 在新建任务界面,选择任务类型:
- 分类:数据开发。
- 绑定引擎:选择当前项目在项目控制台中已绑定的计算引擎类型。
- 关联实例:显示项目绑定时的集群实例信息。
- 选择任务:按需选择离线数据、流式数据下的任务类型。
- 填写任务基本信息:
- 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在 127 个字符以内。
- 保存至:选择任务存放的目标文件夹目录。
- 单击确定按钮,成功创建任务。

3.1 任务代码编辑
新建任务完成后,进入可视化任务配置界面,进行相应计算引擎的 SQL 代码编辑、Pyspark 脚本编辑、Java 类型作业开发等。
当前已支持的数据开发类型及配置操作详见 数据开发类型说明。
3.2 调度设置
离线任务完成代码编辑后,如果任务需要周期性调度运行,即在约定的特定时刻去自动执行任务,那么您需要设定任务的调度属性,包括设定任务调度的资源组、调度周期、调度依赖、任务输入输出参数等信息,以提高任务开发效率。
详见调度设置。

3.3 参数设置
流式任务完成代码编辑后,您需要为其设置流式作业运行资源、Flink 运行参数、数据源登记等参数信息。流式任务参数设置操作详见 Serverless Flink SQL 参数设置。

4 提交与测试
- 代码编辑完成后,您可以单击编辑器上方导航栏中的调试按钮,进行任务调试运行,调试运行成功后,可在编辑器下方,查看调试记录、日志和数据结果页等信息。

- 任务调试无误后,单击操作栏中的提交上线按钮,在弹窗中,完成提交上线内容配置,并单击确认按钮,完成作业提交。

离线任务、流式任务提交上线操作不同,操作详见 提交上线 说明。
5 报警配置
任务提交上线完成后,您可对任务进行报警配置:
- 离线任务监控:
离线报警监控支持您通过配置自定义监控规则、基线管理规则,来实现对离线任务运行状态进行监控,保障上下游中的关键数据能够在预期时间内按时产出。

配置详见 离线报警监控。 - 实时任务监控:
实时报警监控支持您通过配置自定义监控规则,来实现对实时任务的运行状态进行监控,提高任务运维效率。

配置详见 实时任务监控及告警配置。
6 任务运维
任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。

更多操作详见:离线任务运维、流式任务运维。