1.概述
数据连接支持接入阿里云 OSS 。
2.快速入门
下面介绍两种方式创建阿里云 OSS 数据连接。
2.1 从数据连接新建
(1)进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。
(2)在页面中选择 OSS 。
(3)填写所需的基本信息,并进行测试连接,连接成功后点击保存。
数据连接参数说明:
- 服务器:对应 S3Endpoint的访问域名,并在前面加上 https://,例如OSS北京对应 http://oss-cn-beijing.aliyuncs.com
- 用户名:对应accessId
- 密码:对应accessKey
- 桶名:即桶名
- 文件格式:可选csv、txt
- 表类型:可选分区表(分为yyyMMdd和yyyy-MM-dd两种)、非分区表
- 文件目录:即表对应的路径,注意这里填写时不要以 / 开头
(4)确认数据连接的基本信息无误后即完成数据连接。
(5)可使用该连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
(6)输入关键词搜索,选择之前新建好的数据连接。
2.2 从数据集新建
(1)进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。
(2)选择数据连接的时候,点击其他按钮。
之后的步骤与上述 2.1 的(2)、(3)步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。
2.3 目录结构说明
表名:student_np
student_np // 表名对应的目录
├── student.txt // 数据文件,类型在数据连接中指定,会读取到文件夹下所有该类型的数据文件
├── student2.txt
└── student_np.yml // schema文件,名字需要和表名一致
表名:student_p1
student_p1 // 表名对应的目录
├── 20240909 // 分区
│ ├── _SUCCESS // 成功标志文件
│ ├── student.csv // 数据文件,类型在数据连接中指定,会读取到文件夹下所有该类型的数据文件
│ ├── student2.csv
│ └── student3.csv
├── 20240910
│ ├── _SUCCESS
│ ├── student.csv
│ ├── student2.csv
│ └── student3.csv
└── student_p1.yml // schema文件,名字需要和表名一致
2.4 规则详细描述
- 文件目录格式:必填,如 data/student
- 规则1:最后一级目录名称必须和表名一致,格式为 data/{tableName},如 data/student
- 规则2:不支持多级目录解析,请勿在数据文件所在目录下定义子目录,如有系统会自动跳过
- 规则3:文件目录不建议变化,变化前请先更新【DataWind-数据连接】配置项,避免数据查询异常
- 规则4:一个文件目录表示一张表,不支持多表共用一个文件目录,也不支持一张表有多个目录
- 文件目录内容:
- 数据文件:必填,只支持CSV、TXT,可以有多个文件,名称也不做限制
- 规则:数据文件列(字段)顺序必须和元信息文件保持一致,且数据文件不包含表头(字段名行)
- 规则:每次查询时,根据文件目录地址拉取全部数据 (不包含子目录文件)
- 规则:单文件目录下文件总大小建议小于500G
- 规则:CSV最好为数据库等系统直接导出的文件,不要二次编辑,可能会导致日期类型异常
- 元信息文件:必填,{tableName}.yml (如果有结构变动需要改这个文件),直接放在表名对应的目录下
- 规则1:用于解析数据文件映射为结构化表
- 规则2:{tableName}为表名,不支持表名变更,{tableName}需要和该目录名称一致
- 规则3:如果是分区表,分区字段无需写在元信息文件里,系统会自动添加aeolus_partition字段为分区
- 规则4:文件格式见附录
- 同步成功标志文件:分区表必填,非分区表不要填,文件名为 _SUCCESS,无后缀,放在对应的分区目录下
- 逻辑:用于标记数据是否推送完成,用于构建对S3任务的依赖逻辑
- 规则1:文件必须存在,任务执行时读取对应分区下的_SUCCESS判断相应业务日期的数据是否已准备就绪