AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集。
前提条件
- 在使用数据集之前,请确保你已开通火山引擎 TOS 服务并创建存储桶(Bucket),具体步骤,请参考 TOS 快速入门。
- 数据集应提前上传至存储桶(Bucket)中,请参考上传数据集。
操作步骤
步骤一:上传数据集
- 登录 TOS 对象存储控制台,进入桶列表页面单击创建桶,详情参考 TOS 控制台快速入门。
- 进入桶详情页,单击文件列表上方的上传文件进入上传文件页面。
- 您可以通过选择文件或选择文件夹的形式上传文件,也支持拖拽的形式上传文件,重名的文件将被覆盖,最大文件限制在 5 GiB 内,如需上传更大文件,请下载 TOS Browser 或 tosutil。单击右下角上传完成文件上传。
步骤二:创建数据集空间
- 进入 LAS 控制台,进入数据集页面,点击右上角的创建数据集。
- 进入创建数据集页面,完成参数配置。
参数 | 描述 |
---|
数据集名称 | 长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符 |
数据类型 | 选择数据格式,支持结构化数据、文本、图像以及开放格式。如果选择了特定格式,则会在后续的场景中进行数据集的类型筛选。 |
数据格式 | 选择数据格式,后续将根据选择的格式进行数据的读取 |
数据来源 | 当前支持从对象存储 TOS 中读取数据并创建数据集 |
TOS路径 | 可以选择/输入文件的存储位置,以 tos:// 开头,请确保路径的准确性 |
说明
TOS 路径填写时,选择或者输入步骤一中上传文件的根目录。
- 点击创建,与 TOS Bucket 存储路径建立连接。
- 回到 LAS 控制台 > 数据集页面查看创建的数据集,待资源状态更新为可用,即代表创建成功。
- 单击数据集名称进入数据详情页面,查看数据集信息,包括数据集名称、ID、数据格式、最新版本、状态、数据量等关键信息。
- 在数据详情页面,您可以单击物理存储路径和元数据位置,以查看存储桶情况和管理元数据表。