全域数据集成(DataSail)是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。是支持数据实时接收、处理、分发全流程的解决方案,目前支持三十余种异构数据源通过增量、全量以及全增量解决方案的形式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。
1 使用前提
- 已创建火山引擎主账号或 IAM 子用户信息,并已完成个人认证和企业认证。详见账号准备。
- 开通 DataLeap 和 DataSail 服务,以及业务所需的相关引擎服务。详见服务开通。
- 已购买独享集成资源组,用于执行全域数据集成任务。详见独享集成资源组管理。
- 创建 DataLeap 项目空间并且在项目控制台中绑定已开通的独享资源组与引擎服务。详见创建项目。
- 已创建相应计算引擎下的数据库元数据采集器。详见元数据采集。
2 进入数据集成引导流程
- 登录DataLeap租户控制台。
- 在概览界面,显示新创建的项目中,单击 IDE 开发进入对应项目。
- 首次进入任务开发界面时,便可看到了解数据开发流程引导小窗。
- 关闭引导流程窗口后,您也可在左下角再次唤起任务开发流程引导窗口。
3 数据集成全流程
3.1 配置数据源
数据集成支持 MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS 、Doris、Kafka、ByteHouse、BMQ 和 CloudFS 等三十余种数据源类型。
新建数据源操作步骤如下:
- 登录 DataLeap 控制台 。
- 在上方服务地区下拉框中,选择已开通服务的地区。
- 选择地区后,在概览界面,显示加入的项目中,单击项目配置进入对应项目控制台。
- 在项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
- 在数据源管理页面,单击右上角新建数据源按钮,进入新增数据源页面开始新增数据源:
填写对应数据源类型的配置参数,参数说明详见各数据源配置详情。 - 数据源创建完成后,您便可进行后续的集成任务和同步解决方案配置。
3.2 新建同步任务
- 在项目控制台界面左上角全部产品中,进入数据开发界面。
- 在数据开发页面,单击新建任务按钮,进入新建任务页面。
- 任务分类选择数据集成,并按需选择离线集成、流式集成任务类型。
- 输入任务名称,并选择目标文件夹。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。
- 单击确定按钮,完成任务新建,进入任务配置页面。
3.3 数据流定义
在集成任务配置界面,按顺序配置数据来源、目标、字段映射、任务运行参数等配置项信息。
各数据源类型配置说明详见各数据源配置详情。
3.4 集成资源组配置
数据流定义配置完成后,您需单击右侧数据集成资源组按钮,进行资源组选择。
此处选择的资源组为3.1 配置数据源时,测试连通性成功的集成资源组信息,确保任务执行网络可互通。
3.5 调度设置
离线集成任务如果任务需要周期性调度运行,即在约定的特定时刻去自动执行任务,那么您需要设定任务的调度属性,包括设定任务调度的资源组、调度周期、调度依赖、任务输入输出参数等信息。
详见调度设置。
3.6 参数设置
流式集成任务完成数据流定义配置后,您需要为其设置流式作业运行资源、Flink 运行参数、数据源登记等参数信息。
流式任务参数设置操作详见3.2 设置参数。
4 任务调试
任务逻辑和参数配置完成后,您可在数据开发界面,进行任务调试操作:
注意
调试操作,直接使用线上数据进行调试,需谨慎操作。
- 在编辑器上方,单击操作栏中的保存和调试按钮,进行任务调试。
- 调试任务开始运行后,可在下方查看调试记录,单击调试记录按钮,可以查看以下详情内容:
- 概览:查看任务执行的状态、业务日期、运行时长、开始时间等任务概览信息。
- 监控:离线集成任务支持查看任务读写监控指标,您可单击数据集成监控按钮,前往云监控界面查看集成读写指标、资源组使用率等监控信息。
- 调度日志:查看任务在调度分发阶段时的日志信息。
- 执行日志:查看任务实际在独享集成资源组中运行时的执行日志详情信息,您可从中查看任务实际读取的数据大小、数据条数、或失败原因等信息。执行日志查看详见DataSail 日志查看和诊断。
- 运行事件:查看任务运行过程中的事件信息,如任务状态变化、任务失败、重启等事件信息。
5 提交同步任务
任务调试成功且结果确认无误后,便可进行以下任务提交操作:
- 单击上方操作栏中的保存和提交上线按钮;
- 在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数;
- 最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---任务提交。
后续任务运维操作详见:5 任务运维。
6 报警配置
任务提交上线完成后,您可对任务进行报警配置:
- 离线任务监控:
离线报警监控支持您通过配置自定义监控规则、基线管理规则,来实现对离线任务运行状态进行监控,保障上下游中的关键数据能够在预期时间内按时产出。
配置详见 离线报警监控。 - 实时任务监控:
实时报警监控支持您通过配置自定义监控规则,来实现对实时任务的运行状态进行监控,提高任务运维效率。
配置详见 实时任务监控及告警配置。 - 独享集成资源组监控
独享集成资源组监控对接火山引擎云监控服务,可配置一站式监控告警解决方案,从资源组利用率、重点指标性能数据、运行状态方向进行监控,针对资源组异常状态能够及时发送告警通知,确保业务平稳运行,提升运维效率。
配置详见 独享集成资源组监控配置。
7 任务运维
集成任务提交发布成功后,可进入运维中心查看任务运维。
在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,也可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
更多运维操作说明详见:离线任务运维、流式任务运维。