阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务。全域数据集成 DataSail 中 OSS 数据源为您提供离线读取 OSS 数据的能力,实现与不同数据源进行数据传输。
本文将为您介绍 DataSail 的 OSS 数据同步的能力支持情况。
子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
OSS Reader 实现了从 OSS 读取数据并转为数据集成协议的能力,OSS 本身为无结构化数据存储。对于数据集成而言,OSS Reader 功能支持情况如下:
支持 | 不支持 |
---|---|
|
|
OSS Reader 支持的字段类型如下:
类型分类 | 数据集成 column 配置类型 |
---|---|
整数类 | LONG |
字符串类 | STRING |
浮点类 | DOUBLE |
布尔类 | BOOLEAN |
日期时间类 | DATE |
新建数据源操作详见配置数据源,以下为您介绍以连接串形式接入 OSS 数据源配置相关信息。
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | OSS |
*接入方式 | 连接串 |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
*Endpoint | 根据具体地域信息,输入 OSS 对外服务的访问域名,详见访问域名。 |
*OSS 对象存储桶 | 输入 OSS 对象存储控制台中已创建的 Bucket 名称信息。 |
Region | OSS 的数据中心所在的地域,可点此查看。 |
*Access Key ID | 进入阿里云管理控制台的 AccessKey ID管理界面,复制 AccessKey ID 填写到此处, 需要此 AccessKey 具备 OSS 的读与写双权限。 |
*Secret Access Key | 与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
OSS 数据源测试连通性成功后,进入到数据开发界面,开始新建 OSS 相关通道任务。
新建任务方式详见离线数据同步。
任务创建成功后,您可根据实际场景,配置 OSS 离线读通道任务。
数据来源选择 OSS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择来源 OSS 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 OSS 数据源,下拉可选。 |
*文件路径 | 填写需要采集的 OSS 数据文件所在路径,可在 OSS 中查看。 说明 路径中包括 ^ , * , ? , [ , ] , { , } , ( , ) , \ 等符号,则会被判定为正则形式的路径。 |
*示例文件 | 连带文件路径信息,输入示例文件名称信息,如:test/20240228/oss_demo.csv 说明 示例文件第一行需要为 title 行,txt 类型文件的字段信息生成类型都是 string。 |
*数据类型 | 支持选择 json、pb、parquet、orc、csv、txt 等几种数据类型:
|
可视化离线读 OSS,数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下四种方式操作字段映射关系: