阿里云OSS--智能数据洞察-火山引擎

文档中心

立即注册

导航

阿里云OSS

最近更新时间：2024.11.29 14:28:32首次发布时间：2024.11.12 16:47:36

1.概述

数据连接支持接入阿里云 OSS 。

2.快速入门

下面介绍两种方式创建阿里云 OSS 数据连接。

2.1 从数据连接新建

（1）进入火山引擎，点击进入到某个具体项目下，点击数据准备，在下拉列表找到数据连接，新建数据连接。

（2）在页面中选择 OSS 。

（3）填写所需的基本信息，并进行测试连接，连接成功后点击保存。

数据连接参数说明：

服务器：对应 S3Endpoint的访问域名，并在前面加上 https://，例如OSS北京对应 http://oss-cn-beijing.aliyuncs.com

用户名：对应accessId
密码：对应accessKey
桶名：即桶名
文件格式：可选csv、txt
表类型：可选分区表（分为yyyMMdd和yyyy-MM-dd两种）、非分区表
文件目录：即表对应的路径，注意这里填写时不要以 / 开头

（4）确认数据连接的基本信息无误后即完成数据连接。

（5）可使用该连接创建数据集：点击数据准备-->数据集，选择左上角「新建」按钮进行数据集的新建。

（6）输入关键词搜索，选择之前新建好的数据连接。

2.2 从数据集新建

（1）进入火山引擎，点击数据准备-->数据集，选择左上角「新建」按钮，新建数据集。

（2）选择数据连接的时候，点击其他按钮。

之后的步骤与上述 2.1 的（2）、（3）步一致，在完成配置之后会停在数据集选择数据连接的弹出框中，即可直接进行下一步的数据集创建。

2.3 目录结构说明

非分区表

表名：student_np

student_np              // 表名对应的目录
├── student.txt         // 数据文件，类型在数据连接中指定，会读取到文件夹下所有该类型的数据文件
├── student2.txt 
└── student_np.yml      // schema文件，名字需要和表名一致

分区表

表名：student_p1

student_p1              // 表名对应的目录
├── 20240909            // 分区
│   ├── _SUCCESS        // 成功标志文件
│   ├── student.csv     // 数据文件，类型在数据连接中指定，会读取到文件夹下所有该类型的数据文件
│   ├── student2.csv
│   └── student3.csv    
├── 20240910
│   ├── _SUCCESS
│   ├── student.csv
│   ├── student2.csv
│   └── student3.csv
└── student_p1.yml      // schema文件，名字需要和表名一致

2.4 规则详细描述

文件目录格式：必填，如 data/student
1. 规则1：最后一级目录名称必须和表名一致，格式为 data/{tableName}，如 data/student
2. 规则2：不支持多级目录解析，请勿在数据文件所在目录下定义子目录，如有系统会自动跳过
3. 规则3：文件目录不建议变化，变化前请先更新【DataWind-数据连接】配置项，避免数据查询异常
4. 规则4：一个文件目录表示一张表，不支持多表共用一个文件目录，也不支持一张表有多个目录
文件目录内容：
1. 数据文件：必填，只支持CSV、TXT，可以有多个文件，名称也不做限制
  1. 规则：数据文件列(字段)顺序必须和元信息文件保持一致，且数据文件不包含表头（字段名行）
  2. 规则：每次查询时，根据文件目录地址拉取全部数据（不包含子目录文件）
  3. 规则：单文件目录下文件总大小建议小于500G
  4. 规则：CSV最好为数据库等系统直接导出的文件，不要二次编辑，可能会导致日期类型异常
2. 元信息文件：必填，{tableName}.yml （如果有结构变动需要改这个文件），直接放在表名对应的目录下
  1. 规则1：用于解析数据文件映射为结构化表
  2. 规则2：{tableName}为表名，不支持表名变更，{tableName}需要和该目录名称一致
  3. 规则3：如果是分区表，分区字段无需写在元信息文件里，系统会自动添加aeolus_partition字段为分区
  4. 规则4：文件格式见附录
3. 同步成功标志文件：分区表必填，非分区表不要填，文件名为 _SUCCESS，无后缀，放在对应的分区目录下
  1. 逻辑：用于标记数据是否推送完成，用于构建对S3任务的依赖逻辑
  2. 规则1：文件必须存在，任务执行时读取对应分区下的_SUCCESS判断相应业务日期的数据是否已准备就绪