DataSail 全域数据集成提供流式数据同步能力,支持丰富的异构数据源之间,进行高速稳定的实时数据同步能力,将源端数据库中数据实时同步至目标数据库中,实现目标库数据实时保持和源库的数据对应。
本文将为您介绍流式数据同步的操作说明。
数据集成使用的数据源,需要先在项目控制台下注册,数据集成同步支持的数据源类型,详见支持的数据源。
数据源需要在网络连通的前提下进行数据同步,相关说明详见配置网络连通 。
创建流式数据集成任务的步骤如下:
新建流式集成任务完成后,需要配置相关任务信息,流式集成任务已支持可视化和脚本模式配置,操作步骤如下:
选择数据源。
说明
配置来源端和目标端字段的映射关系。
字段映射支持选择基础模式和转换模式配置映射:
注意
基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。
转换模式:
字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。
转换模式详细操作说明详见4.1 转换模式
在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:
配置节点 | 说明 |
---|---|
来源节点 | 配置数据来源 Source 节点信息:
配置完成后,单击确认按钮,完成来源节点配置。 |
数据转换 | 单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:
配置完成后,单击确认按钮,完成数据转换节点配置。SQL 脚本示例详见4.1.2 添加转换节点。 |
目标节点 | 配置目标节点 Sink 信息:
配置完成后,单击确认按钮,完成目标节点配置。 |
基础模式:
说明
同名映射,仅部分数据源支持,如云原生消息引擎 BMQ 数据源。
注意
请注意列与列之间映射的字段类型是否数据兼容。
设置以下任务运行参数。
说明
Kafka/Bmq/RocketMQ 数据源类型的流式集成任务在流式运维界面重启任务操作时,也可按需开启“重置 offset”操作,并指定最新、最老、时间戳或分区 offset 形式的消费起始位置。操作详见流式运维-单任务操作-重启。
说明
流式集成作业的默认全局并发为 MQ Partition 数量/4,若 MQ 流量较小时,可直接在任务高级参数中新增参数:job.common.global_parallelism_num = ${并发数}
,通过这种方式来指定任务全局并发,该参数最终决定会拉起多少 TaskManager 数量;若 Partition 数量很多,但整体流量不高的话,您也可以通过指定该参数,来节约任务实际执行资源。
注意
可视化模式切换至脚本模式,将清空可视化模式中现有的配置,且一旦切换无法撤销。
数据源相关任务配置完成后,可单击右侧的参数设置 ,进入该流式任务的参数设置页面,可以设置流式任务的基础信息。
参数分类 | 参数名称 | 描述 |
---|---|---|
基本信息 | 任务名称 | 显示创建任务时输入的任务名称,参数设置中不支持修改,可以在左侧任务目录结构中的任务名称右侧更多单击重命名进行修改。 |
任务类型 | 流式集成 | |
任务描述 | 非必填,可对任务进行详细描述,方便后续查看和管理。 | |
责任人 | 仅限一个成员,默认为任务创建人(任务执行失败、复查通过或者失败时的默认接收者),可根据实际需要,修改为其他项目成员。
| |
标签 | 您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作即时生效,无需重新上线任务。
| |
资源设置 | TaskManager个数 | 任务并发数量设置,前往任务运行参数-高级参数中,参考 注意 流式集成任务此处 TaskManager 个数设置暂时无效。 |
单TaskManagerCPU数 | 设置单个 TaskManager 所占用的 CPU 数量。 | |
单TaskManager内存大小(MB) | 设置单个 TaskManager 所占用的内存大小。 | |
单TaskManager slot数 | 设置单个 TaskManager 中 slot 的数量。 | |
JobManager CPU数 | 设置单个 JobManager 所占用的 CPU 数量。 | |
JobManager内存 | 设置单个 JobManager 所占用的内存大小。 | |
Flink运行参数 | Flink 相关的动态参数和执行参数,具体设置详见 Flink 官方文档。
|
参数配置完成后,可单击右侧的数据集成资源组配置按钮,进入数据集成资源组页面。
下拉选择在项目控制台中,已完成资源组连通性测试的数据集成资源组,保障任务网络能够连通。更多说明请参见:数据集成资源组。
任务所需参数配置完成后,将任务提交发布到运维中心实时任务运维中执行。 单击操作栏中的保存和提交上线按钮,在弹窗中,需先通过提交上线流程,最后单击确认按钮,完成作业提交。详见5.2 流式任务提交。
后续任务运维操作详见:实时任务运维。