You need to enable JavaScript to run this app.
导航
准实时整库同步解决方案
最近更新时间:2025.03.17 11:00:30首次发布时间:2024.03.01 11:30:30
我的收藏
有用
有用
无用
无用

1 准实时整库同步概述

准实时同步方案支持全增量一体化同步,先进行全量数据迁移,然后再实时同步增量数据至目标端。本文将为您介绍如何创建准实时整库同步解决方案,将源端数据采集至目标数据源的库表中。
本方案运行后会自动建立 Merge 任务,用于将全增量数据进行合并。其中,增量数据通过采集方案实时写入对应的 Log 表,Log 表再定期与 Base 表进行合并(Merge),并最终将结果写入 Base 表中。目前全增量 Merge 的频率支持天级和小时级。
全增量 Merge 分为以下 3个阶段:

  1. 配置实时数据采集方案(新版),任务配置当天启动实时同步任务,将增量数据实时同步至Log表。
  2. 配置准实时任务,并关联步骤1中的 Log 表,任务配置当天执行全量数据初始化的离线同步任务。
  3. 准实时任务配置 T+1 小时/天后,Merge 任务将 Base 表全量数据与实时同步任务的增量数据进行 Merge,最后将结果写入 Base 表。

2 前置操作

  1. 已开通并创建 DataLeap 项目,创建的全量增量任务均会同步到该项目下。详见新建项目
  2. 已开通全域数据集成(DataSail)产品。详见服务开通
  3. 已创建合适资源规格的独享数据集成资源组,并将其绑定至创建成功的 DataLeap 项目下。购买操作详见资源组管理,项目绑定操作详见数据集成资源组
  4. 已完成来源和目标端的数据源准备,创建数据源操作详见配置数据源

3 注意事项

  1. 同步解决方案同时支持选择的表数量目前上限为 2000 张,但建议先以 100 张以下表数量来试用。
  2. 目标数据库需要提前在湖仓一体分析服务(LAS)中先创建好,暂不支持在解决方案中自动创建。
  3. 目前表建立方式为选用已有表时,需要保证目标表 Schema 和源表 Schema 的表名称、字段名称和字段数量数量保持一致。
  4. 准实时整库同步方案同步数据至 LAS 时,目前仅支持将数据写入分区表,暂不支持写入数据至非分区表。
  5. 准实时整库同步任务当前小时/当天仅能查询历史全量数据,增量数据需要等待 T+1小时/天 merge 完成后才可在目标端查询。

4 数据源配置

在配置准实时整库同步解决方案前,您需在数据源管理界面中,配置来源端和目标端相应的数据源。详见配置数据源

  • 独享数据集成资源组所在的 VPC 需要和源端数据库实例所在的 VPC 保持一致,火山引擎 RDS 数据库类型需要将 VPC 中的 IPv4 CIDR 地址,加入到 RDS 数据库的白名单下,保证资源组与数据源之间的网络互通;

  • 若资源组和数据源实例不在同一 VPC 环境时,您可通过公网或者通过专线形式进行互通。网络配置详见网络连通解决方案

5 新建准实时整库同步

数据源配置操作准备完成后,您可开始进行准实时整库同步方案配置:

  1. 登录 DataSail 控制台

  2. 在左侧导航栏中选择数据同步方案,进入同步方案配置界面。

  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。

  4. 单击右上角新建数据同步解决方案按钮,下拉选择准实时整库同步按钮,进入准实时整库同步方案配置界面。按照以下配置,完成方案新建。

进入配置界面后,您可按实际场景需求,完成方案的基本配置、数据缓存、映射配置、同步规则配置等流程配置。

6 基本配置

准实时整库同步方案基本配置步骤说明如下。

6.1 基本信息

基本配置参数说明如下表所示。
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

*链路类型

下拉选择来源和目标端数据源类型。

  • 来源支持类型:MySQL、VeDB、PostgreSQL
  • 目标支持类型:LAS

*方案名称

输入准实时整库同步方案名称。只允许字母、数字、下划线、连字符,且仅允许输入 1~63 个字符。

说明

解决方案实际生成的任务名称定义:

  • 流任务名称:方案名称_解决方案 ID;
  • 批任务名称:解决方案名称_解决方案 ID_唯一标识UUID(12位)。

方案描述

输入此方案的描述信息,方便后续维护管理。

*保存至

下拉选择方案保存路径,此路径为数据开发项目中的任务路径。创建方式详见任务目录树管理

6.2 网络与资源配置

在网络与资源配置中,配置数据来源/目标端数据源信息、集成资源组信息。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

*数据来源

下拉选择数据源管理中创建成功的数据源。
若此前仍未创建相应数据源或需修改数据配置:
Image

  • 您可单击下方新建数据源按钮,在右侧弹窗的数据源管理界面,进行数据源的创建。
  • 也可在对应数据源名称后,单击编辑按钮,进行数据源配置编辑操作。

数据缓存

准实时整库同步解决方案中,默认开启数据缓存模式,且需要关联实时采集增量任务所生成的 Log 表。具体操作详见“7 数据缓存”。

*数据目标

下拉选择数据源管理中创建成功的目标端数据源名称。

*离线集成任务资源组(离线全量)

下拉选择 DataLeap 项目控制台中已绑定的独享数据集成资源组:

  • 选择的资源组,需要确保能与源端、中间缓存数据源、目标端数据源连通,您可单击下方的测试连通性按钮,测试选择的资源组是否可以和各数据源连通成功。
    您可以将鼠标移动至测试连通性按钮上方,单击查看详情,可查看各数据源的连通性详情与测试结果信息。
    Image
  • 您也可以单击资源组管理按钮,前往资源组管理界面进行资源组的查看或新建等操作,详见资源组管理

6.3 资源组高级配置

单击资源组高级配置按钮,在右侧窗口中,配置全量同步、增量同步、调度配置等配置信息。

  1. 全量同步
    解决方案中全量同步任务相关的运行配置,其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    配置项

    说明

    *离线集成任务资源组

    默认选择在网络与资源配置中选择好的独享数据集成资源组。您也可下拉选择已在 DataLeap 项目控制台中绑定的其他独享数据集成资源组。

    说明

    • 选择的资源组,需要确保能与源端、目标端数据源连通。
    • 您也可以单击资源组管理按钮,前往资源组管理界面进行资源组的查看或新建等操作,详见资源组管理

    *默认 Quota 数

    设置可同时提交执行的集成任务数量,可根据独享集成资源组规格进行配置,如资源组的大小为 40CU,则 Quota 配置需必须小于 20(40/2),否则会因资源问题导致任务执行时异常。

    说明

    您也可按需勾选“每次提交执行时不询问”选项,建议您勾选。
    若不勾选,方案每次提交执行时,在执行详情 > 任务 Quota 检测步骤中,需要人工进行 Quota 数确认。
    Image

  2. 增量同步:
    解决方案中,Merge 增量同步任务相关的运行配置,其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    配置项

    说明

    *同步引擎

    增量同步将使用引擎的资源队列,与准实时所选目标端类型相关,目前仅支持选择湖仓一体分析服务(LAS)引擎。

    *服务实例

    下拉选择当前项目中,LAS 相关的服务实例。

    *LAS 队列

    下拉选择在对应服务实例下,已添加的 LAS 队列信息,如公共队列、独占队列信息等。队列绑定操作详见“创建项目”。

    *Jar 资源

    选择增量 Merge 任务中,需要使用的 JAR 资源。由 DataLeap 开发人员提供 Jar 包,可通过数据开发 > 资源库能力,将其上传到平台中。操作详见资源库

    高级参数配置

    您可根据实际情况,已 key-value 形式配置增量同步任务所需使用的高级参数信息。

  3. 调度设置
    选择准实时任务运行时所使用的调度资源组,主要用来支持 Merge 任务和全量同步任务执行,其中会将全量同步任务下发分配至独享数据集成资源组中运行,即准实时集成全量同步任务需调度资源组独享数据集成资源组来共同承载任务的运行。
    目前调度资源组支持选择公共资源组管理独享计算资源组管理

  4. 通道设置
    配置任务通道相关参数:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    通道设置

    *期望最大并发数

    设置离线任务同步时,可以从源端并行读取或并行写入目标端的最大线程数。
    并发数影响数据同步的效率,并发设置越高对应资源消耗也越多,由于资源原因或者任务本身特性等原因,实际执行时并发数可能小于等于设置的期望最大并发数。

    集成高级参数设置

    打开高级参数输入按钮,根据实际业务要求,以 Key\Value 形式,在编辑框中输入离线任务所需的高级参数。支持参数详见高级参数

资源组高级配置完成后,单击配置窗口右上角关闭按钮,退出配置窗口,并检查基本配置所有参数无误后,单击右下角下一步按钮,进行方案的数据缓存配置。

7 数据缓存

准实时整库同步解决方案,数据缓存需要关联实时采集增量任务所生成的 Log 表,缓存数据源类型需要与目标数据源类型一致。
您需通过创建解决方案-实时数据采集类型的形式,先生成 Log 表,再将该 Log 表绑定至准实时整库的数据缓存中。

  1. 数据源选择:选择 LAS 数据源类型

    数据源类型

    说明

    LAS

    LAS 数据源需要创建相应的 CDC 数据采集任务,将源端 MySQL 中的数据,实时采集到 LAS Log 表中,再将该 Log 表作为数据缓存与准实时任务进行绑定。

  2. 订阅格式
    当前仅支持选择 Debezium Json 格式类型,通过该格式来缓存相应的数据。

  3. 映射配置:
    数据源类型选择完成后,单击刷新数据源和Log映射按钮,根据数据源类型,进行相关的映射配置。您可在下拉框中,选择已创建的来源、目标端数据源、Log 表名称、绑定实时采集解决方案信息。

数据缓存配置完成后,单击右下角下一步按钮,进行方案的映射配置。

8 映射配置

在映射配置界面中,您需完成数据来源库表与库表映射规则匹配策略:

8.1 数据源配置

进行来源库表的选择,其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

*数据源

默认展示在网络与资源配置中选择的数据来源名称。

  • 您也可单击下方新建数据源按钮,在右侧弹窗的数据源管理界面,进行数据源的创建。
  • 也可在对应数据源名称后,单击编辑按钮,进行数据源配置编辑操作。

*表选择模式

支持通过指定表或正则方式进行表的选择:

  • 指定表:您可手动指定选择一个库中的部分表进行实时同步。

    注意

    指定表模式,后续无法自动响应新增表 DDL 消息。

  • 正则:您可通过正则匹配的方式,监控指定库,并同步对应库下所有符合规则的表。

指定表模式

*数据表

指定表模式选择时,在左侧您可选择来源数据库表信息,以整库,或单表多表形式展开进行勾选需要同步的库表,取消勾选便可撤回已选中的库表。

说明

  1. 数据库下没有表存在时,不支持勾选同步。
  2. 单次同时支持选择的表数量上限为 2000 张。

正则模式

*源库、源 Schema、源表/集合选择限定条件

正则模式选择时,您可通过设置源库、源 Schema、源表的限定条件,来获取源表信息。
Image

  • 单击添加规则按钮,完成限定条件规则的添加,支持添加多个规则,取合集;
    • 限定条件:您可通过指定源库、源表的名称来限定,也可通过正则表达式匹配的方式,快速获取源端库表信息。
    • 类型:依据限定条件中输入的条件,下拉选择匹配的类型,支持正则个例类型配置。
  • 源表限定条件,可支持批量输入,单击批量输入按钮,在弹窗中输入限定条件表达式,示例如下:
    [ {"filterPattern":".*", "filterType":"FULL", "filterAction":"INCLUDE" } ]
    • filterType 可选:个例-FULL、正则-REG
    • filterAction 可选:INCLUDE

    注意

    当前批量输入的内容将会全量替换已手动添加的规则,请谨慎操作!

  • 删除:您也可以单击操作列下的删除按钮,完成规则删除。

表/集合

正则模式选择时,单击获取源表/获取源集合按钮,平台根据源库、源表/集合限定条件的设置,自动加载符合条件的表/集合。

8.2 目标库表映射配置

来源库表选择完成后,您便可进行后续的映射规则配置。

  1. 自动分区设置
    目前写入 LAS 分区表,分区字段,您可单击编辑按钮,进行自定义编辑名称,支持多级分区字段配置。

  2. 高级配置
    展开高级配置按钮,进行解决方案使用已有表、高级参数等相关配置,其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    配置项

    说明

    使用已有表配置

    目标表已存在,即下方“表建立方式”为“使用已有表”时,若此时源表与目标表中已有字段列不一致时,可通过列匹配规则,根据实际场景进行列映射规则设置,目前支持自动映射、同名取交映射两种匹配规则配置:

    • 自动映射:默认映射规则,字段列不一致时,提示目标检查异常。
    • 同名取交映射:字段列不一致时,仅同名映射匹配到的字段进行数据同步,未匹配到的字段不做同步,任务正常执行。

    源表和目标刷新配置

    整库离线方案配置的源表和目标表数量较多时,您可设置单次拉取表数量,来分批进行表映射配置,默认单次拉取数量为 100 张表,您可根据实际情况进行调整,填写范围 1~2000。

    高级参数配置

    您可为同步解决方案配置全局的高级参数,以 key-value 的形式输入。

  3. 库/表名映射配置
    单击库/表名映射配置按钮,在弹窗中配置库表匹配策略,支持选择与来源库表同名和自定义方式匹配:

    • 与来源库表同名:来源库表选择完成后,解决方案默认将目标端的库表名称,与源端库表信息同名,若目标端不存在同名数据表时,将会自动创建。

      注意

      目前暂不支持自动创建同名数据库,您需先在目标端,如 StarRocks 集群中创建好同名的数据库。

    • 自定义:您也可通过自定义匹配方式,设置源端与目标库表的匹配策略,配置方式详见“9 库表映射规则说明”。
      映射规则配置完成后,单击弹窗右上角关闭按钮,即规则映射配置完成。
  4. 刷新源表和目标表映射
    库/表映射配置配置完成后,您可单击刷新源表和目标表映射按钮,自动加载源表和目标表信息,您可以在列表中进行以下操作:

    说明

    对于历史方案,操作方案编辑,如在原有方案中进行新增表、删除表操作时,单击刷新源表和目标表映射按钮,会弹窗表选择范围,您可按需选择刷新全量表映射仅刷新新增表映射按钮进行表映射刷新。
    Image
    在方案编辑过程中,若同时对库/表名映射、使用已有表配置、高级参数配置、数据源等所有涉及表内容的修改时,系统将默认会刷新全量表映射,且不会弹出选择窗口。

    操作项

    说明

    筛选库表

    单击漏斗按钮,您可输入源端与目标端的库表信息,进行筛选搜索。

    同步主键

    默认设置为源表中设置的主键字段信息,您可下拉进行选择源表中其余字段作为目标表的主键字段。

    表建立方式

    表建立方式分为使用已有表、自动建表数据表不存在几种方式:

    • 使用已有表:当映射配置检查,目标端数据库中若存在相应库表映射规则转换后的表名时,则会直接使用已有表,来执行方案。已有表不支持选择非分区表
    • 自动建表:当映射配置检查,目标端数据库中若不存在相应库表映射规则转换后的表名时,将会通过任务,以映射规则定义的目标表名,自动创建目标表。
    • 数据表不存在:当目标端无法通过 DataSail 自动建表时,您需要进入目标端数据库中,手动创建数据表后,再继续配置解决方案。

    查看字段信息

    可以查看来源表、目标表的字段名和其对应的字段类型等信息。在弹窗中,您也可对自动创建的目标表字段名、字段类型和字段描述信息,进行手动编辑调整。

    配置

    您可为同步解决方案配置多表映射高级参数,以 key-value 的形式输入。

    重置

    单击操作列中的更多 > 重置按钮,可重置源表与目标表的映射关系。

方案映射配置完成后,单击右下角下一步按钮,进行任务的同步规则配置。

9 同步规则配置

在同步规则配置界面,您可进行 Merge 任务相关的周期配置。
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

Merge 周期设置:配置周期性执行任务规则。

*执行频率

选择周期性增量 Merge 任务的执行频率,支持选择以下几种频率来合并 LAS Log 表和 LAS Base 表:

  • 小时级:执行时间需要设置执行小时和执行时刻,执行小时支持多选。
  • 天级:执行时间需要设置具体的时间。

*失败重跑次数

任务失败后重试的次数。

*失败重跑间隔

任务失败后每次重试的时间间隔。

同步规则配置完成后,单击右下角提交方案按钮,进行方案的提交,在弹窗中,您可根据实际情况勾选方案是否立即执行,并单击确定按钮,完成准实时整库同步解决方案的创建。

10 准实时整库同步方案管理

方案创建完成后,进入到方案列表界面,便可查看方案的执行概况,同时您也可以在列表界面进行以下操作:

10.1 解决方案筛选

在创建众多的解决方案后,您可在方案列表界面通过搜索或筛选的方式进行快速定位方案。

  • 您可通过方案名称、方案 ID、数据来源名称、数据目标名称等信息,输入搜索的方式进行筛选。
  • 您也可通过下拉选择方案操作状态、方案类型、数据来源名称、数据目标类型、创建人等选项进行任务的定位操作。

10.2 解决方案运维

在方案列表的运维列中,您可操作执行方案运维相关内容:

说明

启动中的解决方案不支持进行提交执行、方案编辑、方案删除操作。

运维操作

说明

执行详情

单击运维操作列的执行详情按钮,进入解决方案执行详情界面,查看方案的具体执行步骤,如目标表创建,全量批式任务的创建、发布、启动等一系列详情步骤。

  • 在具体步骤的右侧,您可单击单个步骤的执行详情按钮,您可进入查看各步骤中的任务操作状态、耗时及前往任务运维界面等操作。
  • 在“任务 quota 检测”步骤中,若6.3 资源组高级配置中,Quota 数设置没有勾选“每次提交执行时不询问”选项时,您需人工进行确认任务运行 Quota 数量。
    Image

提交执行

未在启动中的任务,您可单击运维操作列的提交执行按钮,将任务提交到运行状态,开启方案的运行。

方案查看

单击运维操作列更多中的方案查看按钮,可对当前解决方案的各个配置步骤进行查看。

方案编辑

单击运维操作列更多中的方案编辑按钮,可对当前解决方案的方案名称、数据来源端、目标端、同步规则、运行配置步骤进行修改编辑,如您可在数据来源配置步骤中,为当前解决方案新增同步表或删除已选择的同步表等操作。

方案复制

单击运维操作列更多中的方案复制按钮,在弹窗中设置新方案的名称信息,单击确定按钮,完成复制**。**

方案解绑

解决方案提交后,在 DataLeap 数据开发界面均会生成相应的集成任务。
如果要在数据开发界面中对生成的集成任务进行编辑时,建议先进行解决方案的方案解绑操作,使解决方案界面中的任务处于已解绑(只读)状态。之后,集成任务的编辑、维护等操作需移步至数据开发界面进行,以确保两个界面中的同一任务配置一致。

说明

方案解绑后,无法在解决方案列表中再次恢复,也不能在该列表里进行方案提交执行、编辑、复制、解绑、删除等操作。您可前往数据开发或运维中心界面进行后续维护。

方案删除

单击运维操作列更多中的方案删除按钮,将处于非运行中、非启动中的方案进行删除,当前仅删除解决方案本身,已生成的表和集成任务不会被删除。

运行监控

单击运维操作列更多中的运行监控按钮,为当前准实时整库同步方案配置一次性全量任务、周期性准实时增量 Merge 任务的运行监控。
在运行监控界面,单击新增规则按钮,平台自动为您创建一条监控规则,您可在操作列中,单击配置监控按钮,前往运维中心,查看监控详情。更多运行监控配置操作详见离线监控规则

提交停止

单击运维操作列更多中的提交停止按钮,可将处于正常运行中的周期性任务进行停止操作。

数据回溯

单击运维操作列更多中的数据回溯按钮,您可按需指定回溯的业务日期,对目标表进行数据回溯,若当前目标表增加了列,对应的数据也会一并回溯。

操作历史

单击运维操作列更多中的操作历史按钮,您可查看当前同步方案的操作历史情况,如创建方案、重启方案、提交停止等操作,均会记录在操作历史中。您可单击操作列中的查看详情按钮,对历史版本的操作进行查看。

11 后续步骤

方案提交完成,任务处于运行中后,您也可以前往运维中心>离线任务运维界面,对离线任务进行一系列运维操作,如对任务配置监控报警,关闭开启任务等操作。运维操作详见离线任务运维