一键实时整库同步方案支持全增量一体化同步,本实践中,先将 Mongo 源端全量数据通过离线任务同步方式迁移,然后再通过实时同步增量任务,将增量数据采集至目标端 ByteHouse 云数仓版(ByteHouse CDW)数据库表中。
本文为您介绍如何创建一键实时同步,将全量和增量数据同步至 ByteHouse CDW 数据库中。
在配置实时整库同步解决方案前,您需在数据源管理界面中,配置来源端 Mongo 数据源。详见 Mongo 数据源配置。
在配置实时整库同步解决方案前,您需在数据源管理界面中,配置目标端 ByteHouse CDW 数据源。详见 ByteHouse云数仓版 数据源配置。
说明
ByteHouse CDW 数据源在配置解决方案时必须配置 API token 信息。
ByteHouse 云数仓版网络配置方式
网络配置方式 | 操作方式 |
---|---|
火山引擎内网 | ByteHouse CDW 支持通过 VPC 内网形式访问连接,主账号需进入 ByteHouse CDW 租户管理界面绑定相关网络信息。操作流程如下:
更多绑定操作,详见设置网络信息。 |
数据源配置操作准备完成后,您可开始进行实时整库同步方案配置:
基本配置参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 |
---|---|
*方案名称 | 输入整库实时同步方案名称,如 Mongo2BHCDW。只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需在127个字符以内。 |
方案描述 | 输入此方案的描述信息,方便后续维护管理。 |
*保存至 | 下拉选择方案保存路径,此路径为数据开发项目中的任务路径。创建方式详见任务目录树管理。 |
*链路类型 | 下拉选择来源和目标端数据源类型,此处来源类型选择 Mongo,目标数据源类型选择 ByteHouse 云数仓版。 |
方案基本配置完成后,单击右下角下一步按钮,进行方案的数据来源配置。
在数据来源配置界面中,完成数据来源设置与库表映射规则匹配策略:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 |
---|---|
数据源设置 | |
*数据源 | 下拉选择数据源管理中创建的 Mongo 数据源。若此前仍未创建相应数据源,您可单击右侧数据源管理按钮,前往数据源管理界面,进行数据源的创建。 |
*表选择模式 | 支持通过指定表或正则方式进行表的选择,本文通过正则模式来实践:
|
*源库、源集合选择限定条件 | 正则模式选择时,您可通过设置源库、源集合的限定条件,来获取源表信息。
|
集合 | 单击获取源集合按钮,平台根据源库、源集合限定条件的设置,自动加载符合条件的表/集合。 注意
|
映射规则 | |
*库表匹配策略 | 选择与来源库表同名的匹配策略:
说明 目前 ByteHouse 目标端暂不支持自动创建目标数据库,您需先在目标端 ByteHouse CDW 集群中创建目标库。 |
数据来源配置完成后,单击右下角下一步按钮,进行方案的数据缓存配置。
使用缓存,可对同步任务进行缓冲,在性能和稳定性上有所提升,适合对稳定性要求高以及数据量大的场景,但需额外增加缓存数据源及相应成本,请按需配置。
整库实时同步解决方案,目前支持“使用缓存”、“无需缓存,直接同步”这两种缓存配置方式:
本次实例中,以“无需缓存,直接同步”方式进行实时同步,确认数据缓存同步方式后,单击右下角下一步按钮,进入数据目标设置。
在数据目标配置界面中,完成数据源目标端设置与映射相关配置:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 | |
---|---|---|
数据源设置 | ||
*数据源 | 下拉选择数据源管理中创建成功的 Bytehouse CDW 数据源。 | |
映射配置 | ||
高级配置 | 使用已有表配置 | 当目标表已存在,即下方“表建立方式”为“使用已有表”时,若此时源表与目标表中已有字段列不一致时,可通过列匹配规则,根据实际场景进行列映射规则设置,目前支持自动映射、同名取交映射两种匹配规则配置:
|
高级参数配置 | 您可为同步解决方案配置全局的高级参数,以 key-value 的形式输入。 | |
*刷新源表和目标表映射 | 单击刷新源表和目标表映射按钮,自动加载源表和目标表信息,您可以在列表中进行以下操作:
|
数据目标配置完成后,单击右下角下一步按钮,进行方案运行参数配置。
Mongo2ByteHouse_CDW 解决方案通道,所有 DDL 消息均只支持忽略变更的策略,即暂不支持配置 DDL 策略,后续敬请期待。其余通道支持能力详见解决方案 DDL 策略配置。
DDL 策略配置完成后,单击右下角下一步按钮,进行任务运行配置。
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 |
---|---|
*离线集成任务资源组 | 下拉选择 DataLeap 项目控制台中已绑定的独享数据集成资源组:
|
*默认 Quota 数 | 设置可同时提交执行的集成任务数量,可根据独享集成资源组规格进行配置,如资源组的大小为 40CU,则 Quoto 配置需必须小于 20(40/2),否则会因资源问题导致任务执行时异常。 |
*期望最大并发数 | 设置离线任务同步时,可以从源端并行读取或并行写入目标端的最大线程数。 |
集成高级参数设置 | 打开高级参数输入按钮,根据实际业务要求,以 Key\Value 形式,在编辑框中输入离线任务所需的高级参数。支持参数详见高级参数。 |
设置解决方案中实时增量任务的运行参数情况。
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
配置项 | 说明 |
---|---|
*实时集成任务资源组 | 下拉选择 DataLeap 项目控制台中已绑定的独享数据集成资源组,选择的资源组,需要确保能与源端、目标端数据源连通,您可单击右侧的连通性测试按钮,进入测试窗口,单击连通性测试按钮,测试选择的资源组是否可以和两侧数据源连通成功。 |
*资源设置 | 可通过自定义和默认两种设置方式,进行实时任务运行资源的设定,如单TaskManager CPU数量、单TaskManager内存大小、JobManager CPU数量等。 说明 默认设置中,各运行资源设置如下:
|
集成高级参数设置 | 打开高级参数输入按钮,根据实际业务要求,以 Key\Value 形式,在编辑框中输入实时任务所需的高级参数。支持参数详见高级参数。 |
Flink 运行参数设置 | 支持输入 Flink 相关的动态参数和执行参数,具体参数设置详见 Flink 官方文档。 |
方案创建完成后,进入到方案列表界面,便可查看方案的执行概况。
一次性全量批任务和增量流任务执行成功后,您可前往 ByteHouse云数仓版目的端数据库中,验证数据的实时接收情况。
前往 ByteHouse 控制台 ,进入 SQL 工作表页签,详见 SQL工作表 使用说明。
在 SQL 编辑器窗口中,选择可运行的 ByteHouse 云数仓版计算组。
执行以下语句,查询对应表数据进行验证:
SELECT * from `dts_test`.`dts_mongo_test`;
数据验证无误后,您可以对已创建的任务进行管理,如同步方案的编辑、重启、暂停、添加任务监控等操作,详见
DataSail 实时任务报警设置最佳实践。