You need to enable JavaScript to run this app.
导航
创建 AI 数据集
最近更新时间:2025.04.07 17:14:30首次发布时间:2025.04.07 16:18:52
我的收藏
有用
有用
无用
无用

AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集。

前提条件

  • 在使用数据集之前,请确保你已开通火山引擎 TOS 服务并创建存储桶(Bucket),具体步骤,请参考 TOS 快速入门
  • 数据集应提前上传至存储桶(Bucket)中,请参考上传数据集

操作步骤

步骤一:上传数据集

  1. 登录 TOS 对象存储控制台,进入桶列表页面单击创建桶,详情参考 TOS 控制台快速入门
  2. 进入桶详情页,单击文件列表上方的上传文件进入上传文件页面
  1. 您可以通过选择文件选择文件夹的形式上传文件,也支持拖拽的形式上传文件,重名的文件将被覆盖,最大文件限制在 5 GiB 内,如需上传更大文件,请下载 TOS Browsertosutil。单击右下角上传完成文件上传。

步骤二:创建数据集空间

  1. 进入 LAS 控制台,进入数据集页面,点击右上角的创建数据集
  1. 进入创建数据集页面,完成参数配置。

参数

描述

数据集名称

长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符

数据类型

选择数据格式,支持结构化数据、文本、图像以及开放格式。如果选择了特定格式,则会在后续的场景中进行数据集的类型筛选。

数据格式

选择数据格式,后续将根据选择的格式进行数据的读取

数据来源

当前支持从对象存储 TOS 中读取数据并创建数据集

TOS路径

可以选择/输入文件的存储位置,以 tos:// 开头,请确保路径的准确性

说明

TOS 路径填写时,选择或者输入步骤一中上传文件的根目录

  1. 点击创建,与 TOS Bucket 存储路径建立连接。
  2. 回到 LAS 控制台 > 数据集页面查看创建的数据集,待资源状态更新为可用,即代表创建成功。
  3. 单击数据集名称进入数据详情页面,查看数据集信息,包括数据集名称、ID、数据格式、最新版本、状态、数据量等关键信息。
  1. 数据详情页面,您可以单击物理存储路径和元数据位置,以查看存储桶情况和管理元数据表。

说明

更多关于数据集的操作,详见数据集管理。