对象存储 TOS(Tinder Object Storage)是火山引擎提供的海量、安全、低成本、易用、高可靠、高可用的分布式云存储服务。DataSail 中 TOS 数据源为您提供读取和写入 TOS 数据的双向通道能力,实现不同数据源与 TOS 进行数据传输。
本文将为您介绍 DataSail 的 TOS 数据同步的能力支持情况。
子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
已开通 TOS 服务,并创建 TOS 存储桶。详见创建存储桶。
TOS Reader 实现了从 TOS 读取数据并转为数据集成协议的能力,TOS 本身为无结构化数据存储。对于数据集成而言,TOS Reader 功能支持情况如下:
支持 | 不支持 |
---|---|
|
|
注意
准备 TOS 数据时,如果数据为 TXT、CSV 文件,则文本字段中不能包含分隔符,否则会串行。
TOS Reader 支持的字段类型如下:
类型分类 | 数据集成 column 配置类型 |
---|---|
整数类 | Long |
字符串类 | String |
浮点类 | Double |
布尔类 | Boolean |
日期时间类 | Date |
TOS Writer 支持的字段类型如下:
类型分类 | 数据集成 column 配置类型 |
---|---|
整数类 | Tinyint、Smallint、Int、Long、Bigint |
字符串类 | String、Varchar、Char |
浮点类 | Float、Double、Decimal |
布尔类 | Boolean |
二进制类 | Binary |
日期时间类 | Date、Timestamp |
新建数据源操作详见配置数据源,以下为您介绍不同接入方式的 TOS 数据源配置相关信息:
火山引擎 TOS 接入方式
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | TOS |
*接入方式 | 火山引擎 TOS |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
*TOS 对象存储桶 | 下拉选择当前租户下已创建成功的 TOS 存储桶名称信息。若现有存储桶不符合您的要求,您可前往 TOS 控制台创建。 |
*Access key ID | 进入火山引擎,访问控制台的密钥管理界面,复制 Accesskey ID 填写到此处。如果为子用户的 AK/SK 信息,可联系主账号获取或创建子用户密钥。详见秘钥管理。 说明 填写的 AK\SK 信息,需要有对应存储桶的读取权限。 |
*Secret Access Key | 与 Access Key ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
连接串形式的接入方式
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | TOS |
*接入方式 | 连接串 |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
*TOS 对象存储桶 | 连接串形式需手动填写想访问对应租户下的存储桶名称。 |
*Accesskey ID | 进入火山引擎,访问控制台的密钥管理界面,复制 Accesskey ID 填写到此处。如果为子用户的 AK/SK 信息,可联系主账号获取或创建子用户密钥。详见秘钥管理。 说明 填写的 AK\SK 信息,需要有对应存储桶的读取权限。 |
*Secret Access Key | 与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
TOS 数据源测试连通性成功后,进入到数据开发界面,开始新建 TOS 相关通道任务。新建任务方式详见离线数据同步。
任务创建成功后,您可根据实际场景,配置 TOS 离线读、TOS 离线写或 TOS 流式写等通道任务。
数据来源选择 TOS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 TOS 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 TOS 数据源,下拉可选。 |
*文件路径 | 填写需要采集的 TOS 数据文件所在路径,可在 TOS 中查看。 说明
|
*数据类型 | 支持选择 json、pb、parquet、csv、txt 等几种数据类型:
|
数据目标端选择 TOS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 下拉选择 TOS 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 TOS 数据源,下拉可选。 |
*文件路径 | 填写需要写入的 TOS 数据文件所在路径,支持填写日期变量形式,如 ${date},具体路径可在 TOS 中查看。 说明 文件路径填写说明:
|
*文件名前缀 | 输入 TOS 目标文件名的前缀信息,如填写 tos_writer,则生成的文件名会以 tos_writer 开头。
|
*文件名称冲突 | 依据实际业务场景,下拉选择数据写入时,针对文件名称冲突状况下的任务处理形式,支持以下三种处理方式:
|
*文本类型 | 支持选择 json、parquet、csv、orc 等几种数据类型:
|
*压缩格式 | 选择写入 TOS 中数据文件的压缩格式,支持选择 None、Snappy、Lz4、Gzip、Zstd 等压缩格式。 |
流式集成任务实时写入 TOS 数据源,数据目标类型选择 TOS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 下拉选择 TOS 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 TOS 数据源,下拉可选。 |
*TOS 保存地址 | 填写需要写入数据的 TOS 存储路径信息。 说明 文件路径填写说明:
|
可视化离线读 TOS,数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式和转换模式配置映射:
注意
基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。
转换模式:
字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。
转换模式详细操作说明详见4.1 转换模式
在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:
配置节点 | 说明 |
---|---|
来源节点 | 配置数据来源 Source 节点信息:
配置完成后,单击确认按钮,完成来源节点配置。 |
数据转换 | 单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:
配置完成后,单击确认按钮,完成数据转换节点配置。SQL 脚本示例详见4.1.2 添加转换节点。 |
目标节点 | 配置目标节点 Sink 信息:
配置完成后,单击确认按钮,完成目标节点配置。 |
基础模式:
基础模式您可通过以下四种方式操作字段映射关系:
说明
当上游为 BMQ、RocketMQ、Kafka 和 DataSail 这四种消息队列的数据源时,写入 TOS 不需要配置 column 字段。