DataSail 依托抖音集团万亿级数据的接入和处理能力支持数据实时接收、处理、分发全流程的解决方案,支持二十余种异构数据源通过增量或全量方式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。
DataSail 托管 Topic 数据源,为您提供实时读取 DataSail 的单向通道能力,将数据同步至不同目标数据源源,进行数据传输工作。 本文将为您介绍 DataSail 托管 Topic 数据源的配置参数及流式读取的通道能力。
DataSail 托管 Topic 支持 JSON 和 PB 格式的数据类型。
新建数据源操作详见配置数据源,以下为您介绍 DataSail 数据源配置相关信息:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | DataSail |
*接入方式 | 火山引擎 DataSail |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
描述 | 对当前新建数据源的填写注释说明,方便后续维护管理。 |
参数配置 | |
*DataSail 项目 | 用于数据集的分组管理,目前仅支持默认(default)项目。 |
*Access Key ID | 填写当前账号的 Access Key ID,用于 DataSail 数据源的鉴权。 |
*Secret Access Key | 当前账号对应的Secret Access Key,与 Access Key ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
DataSail 托管 Topic 数据源测试连通性成功后,进入到数据开发界面,开始新建 DataSail 相关通道任务。新建任务方式详见流式数据同步。
任务创建成功后,您可根据实际场景,配置 DataSail 流式读通道任务。
数据来源选择 DataSail,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*目标类型 | 数据去向目标类型选择 DataSail。 |
*数据源名称 | 已在数据源管理界面注册的 DataSail 数据源,下拉可选。 |
*Topic名称 | 选择 DataSail 数据采集中处理消息源的不同分类主题名称,下拉可选当前项目下对应需读取数据的 Topic 名称。Topic 操作详见 Topic 管理。 |
*数据类型 | 支持JSON、Pb,下拉可选,默认为 JSON 格式。 |
示例数据 | 数据格式为 json 时,需以 json 字符串形式描述 schema。必须填写完整的数据,否则schema不准确。 |
*Pb 类定义 | 数据格式为 Pb 时,需要先定义 Pb 类,在框中中填写 Pb 的
|
*Pb 类名 | 数据格式为 Pb 时,需要填写 PB Class 入口类名信息, |
数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:
DataSail 流式任务运行参数说明与 Kafka 数据源配置说明一致。详见 Kafka 任务运行参数说明。