You need to enable JavaScript to run this app.
导航
数据集成流程引导
最近更新时间:2025.01.17 19:42:28首次发布时间:2025.01.17 19:42:28

全域数据集成(DataSail)是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。是支持数据实时接收、处理、分发全流程的解决方案,目前支持三十余种异构数据源通过增量、全量以及全增量解决方案的形式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。

1 使用前提

  • 已创建火山引擎主账号或 IAM 子用户信息,并已完成个人认证企业认证。详见账号准备
  • 开通 DataLeap 和 DataSail 服务,以及业务所需的相关引擎服务。详见服务开通
  • 已购买独享集成资源组,用于执行全域数据集成任务。详见独享集成资源组管理
  • 创建 DataLeap 项目空间并且在项目控制台中绑定已开通的独享资源组与引擎服务。详见创建项目
  • 已创建相应计算引擎下的数据库元数据采集器。详见元数据采集

2 进入数据集成引导流程

  1. 登录DataLeap租户控制台
  2. 概览界面,显示新创建的项目中,单击 IDE 开发进入对应项目。
    Image
  3. 首次进入任务开发界面时,便可看到了解数据开发流程引导小窗。
    Image
  4. 关闭引导流程窗口后,您也可在左下角再次唤起任务开发流程引导窗口。
    Image

3 数据集成全流程

3.1 配置数据源

数据集成支持 MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS 、Doris、Kafka、ByteHouse、BMQ 和 CloudFS 等三十余种数据源类型。
新建数据源操作步骤如下:

  1. 登录 DataLeap 控制台
  2. 在上方服务地区下拉框中,选择已开通服务的地区。
  3. 选择地区后,在概览界面,显示加入的项目中,单击项目配置进入对应项目控制台。
    Image
  4. 项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
  5. 数据源管理页面,单击右上角新建数据源按钮,进入新增数据源页面开始新增数据源:
    Image
    填写对应数据源类型的配置参数,参数说明详见各数据源配置详情
  6. 数据源创建完成后,您便可进行后续的集成任务同步解决方案配置。

3.2 新建同步任务

  1. 在项目控制台界面左上角全部产品中,进入数据开发界面。
    Image
  2. 在数据开发页面,单击新建任务按钮,进入新建任务页面。
  3. 任务分类选择数据集成,并按需选择离线集成、流式集成任务类型。
  4. 输入任务名称,并选择目标文件夹。

    说明

    任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。

    Image
  5. 单击确定按钮,完成任务新建,进入任务配置页面。

3.3 数据流定义

在集成任务配置界面,按顺序配置数据来源、目标、字段映射、任务运行参数等配置项信息。
Image
各数据源类型配置说明详见各数据源配置详情

3.4 集成资源组配置

数据流定义配置完成后,您需单击右侧数据集成资源组按钮,进行资源组选择。
Image
此处选择的资源组为3.1 配置数据源时,测试连通性成功的集成资源组信息,确保任务执行网络可互通。

3.5 调度设置

离线集成任务如果任务需要周期性调度运行,即在约定的特定时刻去自动执行任务,那么您需要设定任务的调度属性,包括设定任务调度的资源组、调度周期、调度依赖、任务输入输出参数等信息。
Image
详见调度设置

说明

流式任务无需进行调度参数设置。

3.6 参数设置

流式集成任务完成数据流定义配置后,您需要为其设置流式作业运行资源、Flink 运行参数、数据源登记等参数信息。
Image
流式任务参数设置操作详见3.2 设置参数

4 任务调试

任务逻辑和参数配置完成后,您可在数据开发界面,进行任务调试操作:

注意

调试操作,直接使用线上数据进行调试,需谨慎操作。

  1. 在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。
  2. 调试任务开始运行后,可在下方查看调试记录,单击调试记录按钮,可以查看以下详情内容:
    Image
    • 概览:查看任务执行的状态、业务日期、运行时长、开始时间等任务概览信息。
    • 监控:离线集成任务支持查看任务读写监控指标,您可单击数据集成监控按钮,前往云监控界面查看集成读写指标、资源组使用率等监控信息。
    • 调度日志:查看任务在调度分发阶段时的日志信息。
    • 执行日志:查看任务实际在独享集成资源组中运行时的执行日志详情信息,您可从中查看任务实际读取的数据大小、数据条数、或失败原因等信息。执行日志查看详见DataSail 日志查看和诊断
    • 运行事件:查看任务运行过程中的事件信息,如任务状态变化、任务失败、重启等事件信息。

5 提交同步任务

任务调试成功且结果确认无误后,便可进行以下任务提交操作:

  1. 单击上方操作栏中的保存提交上线按钮;
  2. 提交上线对话框中,选择回溯数据、监控设置、提交设置等参数;

    说明

    流式集成任务不支持数据回溯配置操作。

  3. 最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---任务提交

后续任务运维操作详见:5 任务运维

6 报警配置

任务提交上线完成后,您可对任务进行报警配置:

  • 离线任务监控:
    离线报警监控支持您通过配置自定义监控规则、基线管理规则,来实现对离线任务运行状态进行监控,保障上下游中的关键数据能够在预期时间内按时产出。
    Image
    配置详见 离线报警监控
  • 实时任务监控:
    实时报警监控支持您通过配置自定义监控规则,来实现对实时任务的运行状态进行监控,提高任务运维效率。
    Image
    配置详见 实时任务监控及告警配置
  • 独享集成资源组监控
    独享集成资源组监控对接火山引擎云监控服务,可配置一站式监控告警解决方案,从资源组利用率、重点指标性能数据、运行状态方向进行监控,针对资源组异常状态能够及时发送告警通知,确保业务平稳运行,提升运维效率。
    Image
    配置详见 独享集成资源组监控配置

7 任务运维

集成任务提交发布成功后,可进入运维中心查看任务运维。
在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,也可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
Image
更多运维操作说明详见:离线任务运维流式任务运维