MySQL 数据源为您提供读取和写入 MySQL 的双向通道数据集成能力,实现不同数据源与 MySQL 之间进行数据传输。
本文为您介绍 DataSail 的 MySQL 数据同步的能力支持情况。
说明
火山引擎 VeDB-MySQL 数据库,与 MySQL 数据源配置基本一致,您可参考本文进行 VeDB 数据源任务的配置操作。
注意
当前主要字段类型支持情况如下:
字段类型 | 离线读(MySQL Reader) | 离线写(MySQL Writer) |
---|---|---|
TINYINT | 支持 | 支持 |
SMALLINT | 支持 | 支持 |
INTEGER | 支持 | 支持 |
BIGINT | 支持 | 支持 |
FLOAT | 支持 | 支持 |
DOUBLE | 支持 | 支持 |
DECIMAL | 支持 | 支持 |
REAL | 支持 | 支持 |
VARCHAR | 支持 | 支持 |
JSON | 支持 | 支持 |
TEXT | 支持 | 支持 |
MEDIUMTEXT | 支持 | 支持 |
LONGTEXT | 支持 | 支持 |
VARBINARY | 支持 | 支持 |
BINARY | 支持 | 支持 |
TINYBLOB | 支持 | 支持 |
MEDIUMBLOB | 支持 | 支持 |
LONGBLOB | 支持 | 支持 |
ENUM | 支持 | 支持 |
Blob | 支持 | 支持 |
SET | 支持 | 支持 |
BOOLEAN | 支持 | 支持 |
BIT | 支持 | 支持 |
DATE | 支持 | 支持 |
DATETIME | 支持 | 支持 |
TIMESTAMP | 支持 | 支持 |
TIME | 支持 | 支持 |
YEAR | 支持 | 支持 |
MULTIPOLYGON | 支持 | 不支持 |
LINESTRING | 不支持 | 不支持 |
POLYGON | 不支持 | 不支持 |
MULTIPOINT | 不支持 | 不支持 |
MULTILINESTRING | 不支持 | 不支持 |
GEOMETRYCOLLECTION | 不支持 | 不支持 |
新建数据源操作详见配置数据源,以下为您介绍不同接入方式的 MySQL 数据源配置相关信息:
火山引擎 MySQL 数据源
注意
GRANT SELECT, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON
*
.*
TO 'user' IDENTIFIED BY 'password';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON
*
.*
TO 'user' ;
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | MySQL |
接入方式 | 火山引擎 MySQL |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
RDS 实例 ID | 火山引擎云数据库MySQL的实例ID,下拉选择。 |
数据库名 | 下拉选择实例下,已创建的 MySQL 数据库名称。 |
用户名 | 有权限访问数据库的用户名信息。 |
密码 | 输入用户名对应的密码信息。 |
连接串形式 MySQL 数据源
注意
MySQL 侧如果是白名单访问机制,则不同网络环境的连接串地址,需要添加不同的 IP 地址到数据库白名单中,确保集成资源组使用的 VPC 与 MySQL 网络能互通:
详见网络连通解决方案。
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | MySQL |
接入方式 | 连接串 |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
主机名或IP地址 | MySQL 数据库的主机名称或者 IP 地址。 |
端口 | 主机的端口号。 |
数据库名 | 输入已创建的 MySQL 数据库名称。 |
用户名 | 有权限访问数据库的用户名信息。 |
密码 | 输入用户名对应的密码信息。 |
MySQL 数据源测试连通性成功后,进入到数据开发界面,开始新建 MySQL 相关通道任务。
新建任务方式详见离线数据同步、流式数据同步。
任务创建成功后,您可根据实际场景,配置MySQL 批式读、MySQL 批式写或 MySQL 流式写等通道任务。
数据来源选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 MySQL 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。 |
*数据表 | 选择需要采集的数据表信息,您可同时选择多个 Schema 相同的表进行数据同步,支持区间表达式“table_[0-99]”和时间表达式“table_${date}”方式,来快速配置选择多个表。 |
分库分表 | MySQL 支持分库分表形式读取,单击添加分库分表按钮,进行分库分表添加,在下拉框中选择分库数据源与具体分表名称信息,支持添加多个分库分表。 说明 配置分库分表,需要所有表的 Schema 信息必须保持一致,否则任务会执行异常。 |
数据过滤 | 支持您将需要同步的数据进行筛选条件设置,只同步符合过滤条件的数据,可直接填写关键词 where 后的过滤 SQL 语句,例如:create_time > '${date}',不需要填写 where 关键字。 说明 该过滤语句通常用作增量同步,暂时不支持 limit 关键字过滤,其 SQL 语法需要和选择的数据源类型对应。 |
切分建 | 根据配置的字段进行数据分片,建议使用主键或有索引的列作为切分键:
说明 目前仅支持类型为整型或字符串的字段作为切分建。 |
数据目标端选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 数据去向目标类型选择 MySQL。 |
*数据源名称 | 已在数据源管理界面注册的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。 |
*数据表 | 数据源下所属需数据写入的表名,下拉可选。 |
写入前准备语句 | 在执行该数据集成任务前,需要率先执行的 SQL 语句,通常是为了使任务重跑时支持幂等。 |
写入后准备语句 | 执行数据同步任务之后执行的 SQL 语句。例如写入完成后插入某条特殊的数据,标志导入任务执行结束。 |
*数据写入方式 | 下拉选择数据写入 MySQL 的方式:
|
支持可视化方式配置流式写入 MySQL 单表。MySQL Writer 通过 JDBC 远程连接 MySQL 数据库,并执行相应的 SQL 语句,将数据写入 MySQL。流式写入 MySQL 配置方式如下:
数据目标端选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
说明
流式写入 MySQL,默认写入方式以 Upsert 方式写入。
参数 | 说明 |
---|---|
*目标类型 | 数据去向目标类型选择 MySQL。 |
*数据源名称 | 已在数据源管理界面注册的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。 |
*数据表 | 数据源下所属需数据写入的表名,下拉可选。 |
数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式和转换模式配置映射:
注意
基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。
转换模式:
字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。
转换模式详细操作说明详见4.1 转换模式
在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:
配置节点 | 说明 |
---|---|
来源节点 | 配置数据来源 Source 节点信息:
配置完成后,单击确认按钮,完成来源节点配置。 |
数据转换 | 单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:
配置完成后,单击确认按钮,完成数据转换节点配置。SQL 脚本示例详见4.1.2 添加转换节点。 |
目标节点 | 配置目标节点 Sink 信息:
配置完成后,单击确认按钮,完成目标节点配置。 |
基础模式:
您可通过以下三种方式操作字段映射关系:
说明
来源端字段信息支持输入数据库函数和常量配置,单击手动添加按钮,在源表字段中输入需添加的值,并选择函数或常量类型,例如:
说明
对于来源是分库分表形式时,会拉取配置的第一张表的元数据信息。
MySQL 数据源支持使用脚本模式(DSL)的方式进行配置。
在某些复杂场景下,您可通过任务脚本的方式,按照统一的 Json 格式,编写 MySQL Reader 和 MySQL Writer 参数脚本代码,来运行数据集成任务。
注意
切换脚本模式将清空现有可视化界面配置,一旦切换无法撤销。
注意
导入新的脚本模版将清空现有内容,一旦导入无法撤销。
MySQL 批式读脚本示例如下:
// 变量使用规则如下: // 1.自定义参数变量: {{}}, 比如{{number}} // 2.系统时间变量${}, 比如 ${date}、${hour} // ************************************** { // [required] dsl version, suggest to use latest version "version": "0.2", // [required] execution mode, supoort streaming / batch now "type": "batch", // reader config "reader": { // [required] datasource type "type": "mysql", // [optional] datasource id, set it if you have registered datasource "datasource_id": 12345, // [required] user parameter "parameter": { // ********** please write here ********** // "key" : value "columns": [ { "name": "name_sample", "type": "type_sample" } ], "filter": "id > 10", "split_pk": "split_pk_sample", "table_name": "table_name_sample" } }, // writer config "writer": { }, // common config "common": { // [required] user parameter "parameter": { // ********** please write here ********** // "key" : value } } }
Reader 参数说明,其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数:
参数名 | 描述 | 默认值 |
---|---|---|
*type | 数据源类型,对于 MySQL 类型,填写:MySQL | 无 |
*datasource_id | 注册的 MySQL 数据源 ID。可以在项目控制台 > 数据源管理界面中查找。 | 无 |
*table_name | 需要同步的数据表名称,一个数据集成任务只能同步数据到一张目标表。来源 MySQL 支持配置多表或者配置区间读取。
| 无 |
filter | 同步数据的筛选条件,同步数据时只会同步符合过滤条件的数据,直接填写关键词 where 后的过滤 SQL 语句。
| 无 |
split_pk | 根据配置的字段进行数据分片,建议使用主键或有索引的列作为切分键,同步任务会启动并发任务进行数据同步,提高同步速率:
说明 目前仅支持类型为整型或字符串的字段作为切分建。 | 无 |
*columns | 所配置的表中,需要同步的列名集合,使用 JSON 的数组描述字段信息。
| 无 |
MySQL 批式写脚本示例如下:
// ************************************** // 变量使用规则如下: // 1.自定义参数变量: {{}}, 比如{{number}} // 2.系统时间变量${}, 比如 ${date}、${hour} // ************************************** { // [required] dsl version, suggest to use latest version "version": "0.2", // [required] execution mode, supoort streaming / batch now "type": "batch", // reader config "reader": { // [required] datasource type "type": "xx", // [optional] datasource id, set it if you have registered datasource "datasource_id": null, // [required] user parameter "parameter": { // ********** please write here ********** // "key" : value } }, // writer config "writer": { // [required] datasource type "type": "mysql", // [optional] datasource id, set it if you have registered datasource "datasource_id": 12345, // [required] user parameter "parameter": { // ********** please write here ********** // "key" : value "table_name":"table_1", "pre_sql_list":[""], "post_sql_list":[""], "write_mode":"overwrite", "columns": [ { "name": "name_sample", "type": "type_sample" } ] } }, // common config "common": { // [required] user parameter "parameter": { // ********** please write here ********** // "key" : value } } }
Writer 参数说明,其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数:
参数名 | 描述 | 默认值 |
---|---|---|
*type | 数据源类型,对于 MySQL 类型,填写:MySQL | 无 |
*datasource_id | 注册的 MySQL 数据源 ID。可以在项目控制台 > 数据源管理界面中查找。 | 无 |
*table_name | 填写数据源下所属需数据写入的表名。 | 无 |
pre_sql_list | 写入前准备语句:在执行数据集成任务前,率先执行的 SQL 语句。此语句通常是为了使任务重跑时支持幂等,支持配置多条写入前准备语句,用英文分号 “;” 分隔即可。 | 无 |
post_sql_list | 写入后准备语句:执行数据同步任务后执行的 SQL 语句。例如数据写入完成后,插入某条特殊的数据,标志导入任务执行结束,支持配置多条写入后准备语句,用英文分号 “;” 分隔即可。 | 无 |
*write_mode | 数据导入模式,可以支持 insert into/on duplicate key update/replace into 三种模式:
| 无 |
*columns | 所配置的表中需要同步的列名集合,使用 JSON 的数组描述字段信息。
注意
| 无 |
job.reader.
前缀,写参数需要加上 job.writer.
前缀,如下图所示:reader.parameter
下,写参数请配置到 writer.parameter
下,直接输入参数名称和参数值。如下图所示:批式读支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
job.reader.init_sql | 读取数据前执行的 SQL 语句。对于视图的查询可能需要使用 init SQL 语句初始化环境。 | 无 |
job.reader.reader_fetch_size | 每次拉取的数据条数,只在准确分片中有效。 | 10000 |
job.reader.query_timeout_seconds | Jdbc 方式读取数据,设定读取超时时间,单位秒。 | 300 |
job.reader.shard_split_mode | Jdbc 连接分片模式,支持准确分片、并发分片、不分片三种模式:
| 准确分片 |
job.reader.customized_sql | 自定义查询读取 SQL 语句。filter 过滤配置项不足以描述所筛选的条件,可通过该配置项来自定义执行较复杂的查询 SQL。 说明 配置该高级参数项后,数据同步任务仍需配置 table_name、column 、split_pk 、shard_split_mode 等必填配置项。然而,在执行同步时,系统将忽略这些配置项信息,直接使用该高级参数项中配置的内容进行数据查询和筛选。 | 无 |
批式写支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
job.writer.is_insert_ignore | insert into 模式时,主键或者唯一键冲突时任务失败还是忽略冲突,false 为任务执行失败;true 为忽略冲突,任务正常执行。 | false |
job.writer.write_batch_interval | 一次性批量提交的数据条数,该值可以减少与 MySQL 网络的交互次数并提升整体吞吐量。如果该值设置过大可能会导致数据同步进程 OOM。 | 100 |
job.writer.write_retry_times | MySQL 写入失败时重试次数。 | 3 |
job.writer.retry_interval_seconds | 写入失败后两次重试的时间间隔,单位秒。 | write_batch_interval / 10 |
job.writer.connection_parameters | Jdbc 连接的全部参数,可在默认值后追加补充:
| autoReconnect=true&useUnicode=true&characterEncoding=utf-8&useSSL=false&zeroDateTimeBehavior=convertToNull |
离线任务写入 MySQL 方式,MySQL 数据表中只保存最近一天的数据:
delete from table_name where
date<= "${date-1}"
说明
date 为数据库关键字,故需要用 ` 括起转义。
insert into
。对于 MySQL 离线写,使用 insert into
写入方式时,重跑任务可能产生两种结果:
因此为了任务重跑时可实现幂等,可以有以下几种解决方案:
on duplicate key update
或者 replace into
。insert into
,并配置高级参数 job.writer.is_insert_ignore
为 true
。