全域数据集成(DataSail)是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。是支持数据实时接收、处理、分发全流程的解决方案,目前支持三十余种异构数据源通过增量、全量以及全增量解决方案的形式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。
1 使用前提
- 已开通 DataLeap 对应服务版本,并创建 DataLeap 项目。详见创建项目。
- 已购买独享集成资源组,用于执行全域数据集成任务。详见独享集成资源组管理。
- 已创建相应计算引擎下的数据库元数据采集器。详见元数据采集。
2 配置数据源
数据集成支持 MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS 、Doris、Kafka、ByteHouse、BMQ 和 CloudFS 等三十余种数据源类型。
新建数据源操作步骤如下:
- 登录 DataLeap 控制台 。
- 在上方服务地区下拉框中,选择已开通服务的地区。
- 选择地区后,在概览界面,显示加入的项目中,单击项目详情进入对应项目控制台。
- 在项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
- 在数据源管理页面,单击右上角新建数据源按钮,进入新增数据源页面开始新增数据源:
- 填写对应数据源类型的配置参数,参数说明详见各数据源配置详情。
- 参数项填写完整后,勾选项目已绑定的独享集成资源组,并单击上方测试按钮,执行测试连通性。项目绑定资源组操作,详见创建项目。
- 连通性测试成功后,单击确定按钮,完成新增。
- 数据源创建完成后,您便可进行后续的集成任务和同步解决方案配置。
3 配置集成同步任务
数据源配置完成,您可前往数据开发界面,继续配置离线、流式数据集成同步任务。
3.1 新建同步任务
- 在项目控制台界面左上角全部产品中,进入数据开发界面。
- 在数据开发页面,单击新建任务按钮,进入新建任务页面。
- 任务分类选择数据集成,并按需选择离线集成、流式集成任务类型。
- 输入任务名称,并选择目标文件夹。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。
- 单击确定按钮,完成任务新建,进入任务配置页面。
- 在任务配置界面,配置数据来源、目标、字段映射、任务运行参数、调度设置等配置项信息。各数据源类型配置说明详见各数据源配置详情。
3.2 调试同步任务
任务逻辑和参数配置完成后,您可在数据开发界面,进行任务调试操作:
注意
调试操作,直接使用线上数据进行调试,需谨慎操作。
- 在编辑器上方,单击操作栏中的保存和调试按钮,进行任务调试。
- 调试任务开始运行后,可在下方查看调试记录,单击调试记录按钮,可以查看以下详情内容:
- 概览:查看任务执行的状态、业务日期、运行时长、开始时间等任务概览信息。
- 监控:离线集成任务支持查看任务读写监控指标,您可单击数据集成监控按钮,前往云监控界面查看集成读写指标、资源组使用率等监控信息。
- 调度日志:查看任务在调度分发阶段时的日志信息。
- 执行日志:查看任务实际在独享集成资源组中运行时的执行日志详情信息,您可从中查看任务实际读取的数据大小、数据条数、或失败原因等信息。执行日志查看详见DataSail 日志查看和诊断。
- 运行事件:查看任务运行过程中的事件信息,如任务状态变化、任务失败、重启等事件信息。
3.3 提交同步任务
任务调试成功且结果确认无误后,便可进行以下任务提交操作:
- 单击上方操作栏中的保存和提交上线按钮;
- 在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数;
- 最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---任务提交。
后续任务运维操作详见:5 任务运维。
4 数据同步解决方案
DataSail 同时也支持您一键配置数据同步解决方案,支持离线整库、实时整库、实时分库分表、实时数据采集同步解决方案。进行数据的全增量一体化同步,先将源端全量数据通过离线集成任务方式同步迁移,然后再通过实时方式同步增量数据,将源端数据采集至目标端数据库中。
同步解决方案创建步骤如下:
- 登录 DataSail 控制台。
- 在左侧导航栏中选择数据同步方案,进入同步方案配置界面。
- 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
- 单击右上角新建数据同步解决方案按钮,下拉按需选择离线整库同步、实时整库同步、实时分库分表同步、实时数据采集按钮,进入相应的同步方案配置界面。
各数据同步解决方案具体操作流程,详见同步解决方案。
5 任务运维
单通道集成任务和同步解决方案提交发布成功后,可进入运维中心查看任务运维。
- 单通道集成任务进入运维中心:
在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,也可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
- 同步解决方案进入运维中心:
- 在数据同步解决方案列表界面,单击方案名称的运维列中执行详情按钮,进入方案详情界面。
- 在执行详情界面,您可在“一次性全量批任务启动”、“增量流任务启动”步骤中,单击执行详情按钮。
- 在弹窗中,单击更多 > 去运维按钮,前往运维中心界面,查看任务实例详情,并进行一系列的任务运维相关操作。
更多运维操作说明详见:离线任务运维、流式任务运维。
6 后续步骤
数据采集至目标端数据源后,部分数据源,如:ByteHouse CDW、ByteHouse CE、EMR Hive 等数据源中的数据,可通过 DataLeap 数据开发能力,进行二次数据加工处理操作,详见:数据加工。