全域数据集成 DataSail Iceberg 数据源为您提供离线和流式写入火山引擎 E-MapReduce(EMR)Iceberg 的单向通道能力。本文为您介绍 DataSail 的 Iceberg 数据同步的能力支持情况。
支持半托管火山引擎 E-MapReduce(EMR) Iceberg 1.4.3 版本。
写入 Iceberg 支持的字段类型如下:
类型 | 描述 | 备注 |
---|---|---|
boolean | True or false | |
int | 32-bit signed integers | Can promote to long |
long | 64-bit signed integers | |
float | 32-bit IEEE 754 floating point | Can promote to double |
double | 64-bit IEEE 754 floating point | |
decimal(P,S) | Fixed-point decimal; precision P, scale S | Scale is fixed and precision must be 38 or less |
date | Calendar date without timezone or time | |
time | Time of day without date, timezone | Stored as microseconds |
timestamp | Timestamp without timezone | Stored as microseconds |
string | Arbitrary-length character sequences | Encoded with UTF-8 |
binary | Arbitrary-length byte array | |
list<E> | A list with elements of any data type | |
map<K, V> | A map with keys and values of any data type |
新建数据源操作详见配置数据源,以下为您介绍 EMR Iceberg 数据源配置相关信息。
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | Iceberg |
*接入方式 | EMR Iceberg |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
*认证方式 | 目前不支持选择认证方式,默认为无。 |
*EMR 集群 ID | 下拉选择已创建成功的 EMR Hadoop 集群名称,且集群中包含 Iceberg 组件,若还未创建相关集群,您可前往 EMR-控制台创建。详见创建集群。 |
*数据库名 | 下拉选择集群环境中,已创建的数据库名称。 |
Iceberg 版本号 | 依据已选择的 EMR Hadoop 集群,自动展现集群中 Iceberg 组件的版本号。 |
用户名 | 有权限访问数据库的用户名信息。 |
密码 | 输入用户名对应的密码信息。 |
Access Key ID | 如果您需要访问 Iceberg on TOS,您需填写 Access Key Id 和 Secret Access Key 信息。 说明
|
Secret Access Key | 与 Access Key ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
扩展配置 | 您可输入 HDFS 配置的可选扩展,例如 Hadoop HA 的配置信息。 |
Iceberg 数据源测试连通性成功后,进入到数据开发界面,开始新建 Iceberg 相关通道任务。新建任务方式详见离线数据同步。
任务创建成功后,您可根据实际场景,配置 Iceberg 离线写等通道任务。
数据目标类型选择 Iceberg,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 下拉选择 Iceberg 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 Iceberg 数据源,下拉可选。 |
*数据表 | 选择需要写入数据的 Iceberg 表名称信息,下拉可选。 |
*写入方式 | 选择目标数据写入方式,支持以下两种写入方式:
|
*唯一键 | Iceberg 数据表选择完成后,可下拉选择表中对应的唯一键字段。 |
数据目标类型选择 Iceberg,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 下拉选择 Iceberg 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 Iceberg 数据源,下拉可选。 |
*数据表 | 选择需要写入数据的 Iceberg 表名称信息,下拉可选。 |
*写入方式 | 选择目标数据写入方式,支持以下两种写入方式:
|
数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式和转换模式配置映射:
注意
基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。
转换模式:
字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。
转换模式详细操作说明详见4.1 转换模式
在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:
配置节点 | 说明 |
---|---|
来源节点 | 配置数据来源 Source 节点信息:
配置完成后,单击确认按钮,完成来源节点配置。 |
数据转换 | 单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:
配置完成后,单击确认按钮,完成数据转换节点配置。SQL 脚本示例详见4.1.2 添加转换节点。 |
目标节点 | 配置目标节点 Sink 信息:
配置完成后,单击确认按钮,完成目标节点配置。 |
基础模式:
您可通过以下三种方式操作字段映射关系:
对于可视化通道任务,高级参数可在任务开发界面:任务运行参数 > 自定义参数设置中填写,读参数需要加上 job.reader.
,写参数需要加上job.writer.
前缀,如图所示:
参数 | 默认值 | 含义 |
---|---|---|
job.writer.primary_key | 无 | 写入方式选择为 upsert 时,需配置同步主键信息,参数值格式参考如:["unique_key","app_id","event_date","hash_uid"] |
job.writer.writer_parallelism_num | 无 | 设置写入并行度,可根据独享集成资源组规格实际情况进行配置,无默认值。 |