DataSail 一键实时整库同步方案支持全增量一体化同步,先将 MySQL 全量数据同步迁移,然后再实时同步增量数据至目标端 StarRocks 中。
您也可以选择单独进行实时增量数据同步,该场景适用于已经通过其他方式将全量数据同步至 StarRocks,本文为您介绍如何创建一键实时同步至 StarRocks 任务。
已开通并创建 DataLeap 项目,创建的全量增量任务均会同步到该项目下。详见新建项目。
已创建合适资源规格的独享数据集成资源组,并将其绑定至创建成功的 DataLeap 项目下。购买操作详见资源组管理,项目绑定操作详见数据集成资源组。
已开通全域数据集成(DataSail)产品。详见服务开通。
已完成数据源来源和目标端的准备,创建源端数据源 MySQL 实例,目标端火山引擎 E-MapReduce(EMR) StarRocks集群。详见创建 MySQL 实例和 创建 StarRocks 集群 。
目标表创建:将源端表数据写入到目标表中,目标表创建可以是以下两种方式:
已有表:手动在目标数据库环境中,已创建好源端同名表来接收数据,此时方案步骤执行时,将跳过建表的流程。
自动建表:在目标数据库环境中,还没有与源端数据表同名的目标表,此时方案步骤执行时,会自动在流程中创建同名目标表。
增量实时任务位点初始化:首次启动时,会自动指定增量流式任务的初始化位点位置。
任务创建:MySQL_to_StarRocks 的实时整库同步方案,会创建以下两种任务类型:
一次性全量批式任务创建:全量同步时,一次性全量批式任务将历史全量数据,同步至目标 StarRocks 表中。
增量流式任务创建:待全量批式任务执行完成后,增量数据将通过启动流式任务的方式,实时同步至目标 StarRocks 表中。
说明
同步方案产生的一次性全量批式任务个数,与方案中设置的数据来源表个数有关。
同步解决方案同时支持选择的表数量目前上限为 1000 张,但建议先以 100 张以下表数量来试用。
目前目标库 StarRocks 库需要提前在集群中先创建好,暂不支持在解决方案中自动创建。
目前表建立方式为选用已有表时,需要保证表 schema 和源表 schema 的名称和数量保持一致。
实时多表目前只支持源表和目标表名完全一致。
解决方案同步数据至 StarRocks 时,仅支持将数据写入非分区表,暂不支持写入数据至分区表。
在配置实时整库同步解决方案前,您需在数据源管理界面中,配置来源端 MySQL 和目标端 StarRocks 相应的数据源。详见 MySQL 数据源配置、StarRocks 数据源配置。