You need to enable JavaScript to run this app.
导航
数据开发流程引导
最近更新时间:2025.01.17 19:37:58首次发布时间:2022.07.20 14:54:30

DataLeap 数据开发支持对接不同引擎下的各种任务类型,您可通过创建开发任务来进行代码开发、运行查询等操作。本文将引导您快速了解一个完整的数据开发流程,提升您的开发效率。

1 前提条件

  1. 已创建火山引擎主账号或 IAM 子用户信息,并已完成个人认证企业认证。详见账号准备
  2. 开通 DataLeap 服务和业务所需的引擎服务。详见服务开通
  3. 根据业务场景按需开通 DataLeap 任务所需的独享资源组服务。详见独享资源组管理
  4. 创建 DataLeap 项目空间并且在项目控制台中绑定已开通的独享资源组与引擎服务。详见创建项目

2 进入数据开发引导流程

  1. 登录DataLeap租户控制台
  2. 概览界面,显示新创建的项目中,单击 IDE 开发进入对应项目。
    Image
  3. 首次进入任务开发界面时,便可看到了解数据开发流程引导小窗。
    Image
  4. 关闭引导流程窗口后,您也可在左下角再次唤起任务开发流程引导窗口。
    Image

3 数据开发全流程

Image

3.1 快速建表

EMR Hadoop、LAS Catalog、ByteHouse CDW、ByteHouse CE、EMR Serverless StarRock 等引擎类型,在 DataLeap 数据地图中支持使用可视化或 DDL 方式来创建引擎下的库表信息。

  1. 在数据开发界面右上角全部产品中,进入数据地图模块。
    Image
  2. 在数据地图上方导航栏中选择我的库表页签,进入 Table 管理界面。

    说明

    在进行引擎库表创建前,您需通过元数据采集能力,将引擎信息采集到数据地图中。详见元数据采集

    Image
  3. 在我的库表界面中,您可进行相应引擎下的 DB 管理或 Table 管理操作。

操作详见各引擎的 DB 管理Table 管理

3.2 新建任务开发

引擎数据库表创建完成后,回到 DataLeap 任务开发界面,根据业务需求,选择对应的引擎节点类型,进行后续的开发流程。
新建任务操作如下:

  1. 任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。
  2. 在新建任务界面,选择任务类型:
    1. 分类:数据开发。
    2. 绑定引擎:选择当前项目在项目控制台中已绑定的计算引擎类型。
    3. 关联实例:显示项目绑定时的集群实例信息。
    4. 选择任务:按需选择离线数据流式数据下的任务类型。
  3. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在 127 个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  4. 单击确定按钮,成功创建任务。

Image

3.1 任务代码编辑

新建任务完成后,进入可视化任务配置界面,进行相应计算引擎的 SQL 代码编辑、Pyspark 脚本编辑、Java 类型作业开发等。
当前已支持的数据开发类型及配置操作详见 数据开发类型说明

3.2 调度设置

离线任务完成代码编辑后,如果任务需要周期性调度运行,即在约定的特定时刻去自动执行任务,那么您需要设定任务的调度属性,包括设定任务调度的资源组、调度周期、调度依赖、任务输入输出参数等信息,以提高任务开发效率。
详见调度设置

说明

流式任务无需进行调度参数设置。

Image

3.3 参数设置

流式任务完成代码编辑后,您需要为其设置流式作业运行资源、Flink 运行参数、数据源登记等参数信息。流式任务参数设置操作详见 Serverless Flink SQL 参数设置
Image

4 提交与测试

  1. 代码编辑完成后,您可以单击编辑器上方导航栏中的调试按钮,进行任务调试运行,调试运行成功后,可在编辑器下方,查看调试记录、日志和数据结果页等信息。
    Image
  2. 任务调试无误后,单击操作栏中的提交上线按钮,在弹窗中,完成提交上线内容配置,并单击确认按钮,完成作业提交。
    Image

离线任务、流式任务提交上线操作不同,操作详见 提交上线 说明。

5 报警配置

任务提交上线完成后,您可对任务进行报警配置:

  • 离线任务监控:
    离线报警监控支持您通过配置自定义监控规则、基线管理规则,来实现对离线任务运行状态进行监控,保障上下游中的关键数据能够在预期时间内按时产出。
    Image
    配置详见 离线报警监控
  • 实时任务监控:
    实时报警监控支持您通过配置自定义监控规则,来实现对实时任务的运行状态进行监控,提高任务运维效率。
    Image
    配置详见 实时任务监控及告警配置

6 任务运维

任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
Image
更多操作详见:离线任务运维流式任务运维