You need to enable JavaScript to run this app.
导航
数据采集
最近更新时间:2024.10.23 16:18:21首次发布时间:2024.10.23 10:40:00

全域数据集成(DataSail)是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。是支持数据实时接收、处理、分发全流程的解决方案,目前支持三十余种异构数据源通过增量、全量以及全增量解决方案的形式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。

1 使用前提

  • 已开通 DataLeap 对应服务版本,并创建 DataLeap 项目。详见创建项目
  • 已购买独享集成资源组,用于执行全域数据集成任务。详见独享集成资源组管理
  • 已创建相应计算引擎下的数据库元数据采集器。详见元数据采集

2 配置数据源

数据集成支持 MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS 、Doris、Kafka、ByteHouse、BMQ 和 CloudFS 等三十余种数据源类型。
新建数据源操作步骤如下:

  1. 登录 DataLeap 控制台
  2. 在上方服务地区下拉框中,选择已开通服务的地区。
  3. 选择地区后,在概览界面,显示加入的项目中,单击项目详情进入对应项目控制台。
    Image
  4. 项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
  5. 数据源管理页面,单击右上角新建数据源按钮,进入新增数据源页面开始新增数据源:
    Image
    1. 填写对应数据源类型的配置参数,参数说明详见各数据源配置详情
    2. 参数项填写完整后,勾选项目已绑定独享集成资源组,并单击上方测试按钮,执行测试连通性。项目绑定资源组操作,详见创建项目

      说明

      数据源网络与独享集成资源组网络需保证能互通,详见网络连通解决方案

    3. 连通性测试成功后,单击确定按钮,完成新增。
  6. 数据源创建完成后,您便可进行后续的集成任务同步解决方案配置。

3 配置集成同步任务

数据源配置完成,您可前往数据开发界面,继续配置离线、流式数据集成同步任务。

3.1 新建同步任务

  1. 在项目控制台界面左上角全部产品中,进入数据开发界面。
    Image
  2. 在数据开发页面,单击新建任务按钮,进入新建任务页面。
  3. 任务分类选择数据集成,并按需选择离线集成、流式集成任务类型。
  4. 输入任务名称,并选择目标文件夹。

    说明

    任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。

    Image
  5. 单击确定按钮,完成任务新建,进入任务配置页面。
  6. 在任务配置界面,配置数据来源、目标、字段映射、任务运行参数、调度设置等配置项信息。各数据源类型配置说明详见各数据源配置详情

3.2 调试同步任务

任务逻辑和参数配置完成后,您可在数据开发界面,进行任务调试操作:

注意

调试操作,直接使用线上数据进行调试,需谨慎操作。

  1. 在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。
  2. 调试任务开始运行后,可在下方查看调试记录,单击调试记录按钮,可以查看以下详情内容:
    Image
    • 概览:查看任务执行的状态、业务日期、运行时长、开始时间等任务概览信息。
    • 监控:离线集成任务支持查看任务读写监控指标,您可单击数据集成监控按钮,前往云监控界面查看集成读写指标、资源组使用率等监控信息。
    • 调度日志:查看任务在调度分发阶段时的日志信息。
    • 执行日志:查看任务实际在独享集成资源组中运行时的执行日志详情信息,您可从中查看任务实际读取的数据大小、数据条数、或失败原因等信息。执行日志查看详见DataSail 日志查看和诊断
    • 运行事件:查看任务运行过程中的事件信息,如任务状态变化、任务失败、重启等事件信息。

3.3 提交同步任务

任务调试成功且结果确认无误后,便可进行以下任务提交操作:

  1. 单击上方操作栏中的保存提交上线按钮;
  2. 提交上线对话框中,选择回溯数据、监控设置、提交设置等参数;

    说明

    流式集成任务不支持数据回溯配置操作。

  3. 最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---任务提交

后续任务运维操作详见:5 任务运维

4 数据同步解决方案

DataSail 同时也支持您一键配置数据同步解决方案,支持离线整库、实时整库、实时分库分表、实时数据采集同步解决方案。进行数据的全增量一体化同步,先将源端全量数据通过离线集成任务方式同步迁移,然后再通过实时方式同步增量数据,将源端数据采集至目标端数据库中。
同步解决方案创建步骤如下:

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中选择数据同步方案,进入同步方案配置界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    Image
  4. 单击右上角新建数据同步解决方案按钮,下拉按需选择离线整库同步、实时整库同步、实时分库分表同步、实时数据采集按钮,进入相应的同步方案配置界面。

各数据同步解决方案具体操作流程,详见同步解决方案

5 任务运维

单通道集成任务和同步解决方案提交发布成功后,可进入运维中心查看任务运维。

  • 单通道集成任务进入运维中心:
    在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,也可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
    Image
  • 同步解决方案进入运维中心:
    1. 在数据同步解决方案列表界面,单击方案名称的运维列中执行详情按钮,进入方案详情界面。
      Image
    2. 在执行详情界面,您可在“一次性全量批任务启动”、“增量流任务启动”步骤中,单击执行详情按钮。
      Image
    3. 在弹窗中,单击更多 > 去运维按钮,前往运维中心界面,查看任务实例详情,并进行一系列的任务运维相关操作。
      Image

更多运维操作说明详见:离线任务运维流式任务运维

6 后续步骤

数据采集至目标端数据源后,部分数据源,如:ByteHouse CDW、ByteHouse CE、EMR Hive 等数据源中的数据,可通过 DataLeap 数据开发能力,进行二次数据加工处理操作,详见:数据加工