数据集(Dataset)用于统一管理数据集,支持数据集创建、多版本管理和共享功能,可在模型精调中使用。
创建数据集之前,用户需确保账户已启用火山引擎对象存储 TOS 服务。
打开数据集页面后,进入数据集列表。点击数据集列表页面左上角的【创建数据集】按钮,进入创建数据集页面。
填写创建数据集表单,包括数据集名称、数据集描述,选择数据格式、上传文件等。具体填写说明见下表。
创建数据集表单配置字段填写说明
字段名 | 是否必填 | 描述及填写规范 |
---|---|---|
数据集名称 | 是 | 自定义数据集名称,方便记录检索;支持1~200位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。 |
数据集描述 | 否 | 给数据集添加除名称以外的其他描述信息,方便多次迭代版本,重要信息记录;支持1~300位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。 |
数据格式 | 是 | 目前平台支持两种数据格式:
详情可见模型精调数据集格式说明。 |
版本号 | 是 | 数据集版本号,从V1开始,每次新建版本自动递增。 |
文件上传 | 是 | 具体文件格式可参考页面说明,或按照页面提示下载样例文件到本地,填充信息后再上传;支持上传数据集、从TOS导入两种文件上传方式。 |
注意
数据上传后将保存至用户账号下的火山引擎对象存储 TOS ,费用详情可见对象存储-计费概述。
为保障您的数据安全,
若您选择从本地上传数据集,平台会在您的账号下创建存储桶(Bucket)以存储上传数据,并为该存储桶开启TOS服务端加密,加密方式为SSE-TOS;
若您将本账号下TOS服务中存储桶内数据导入至火山方舟数据集内,建议您为数据所在的存储桶启用服务端加密,推荐使用SSE-TOS加密方式,详情可见 TOS-服务端加密概述。
通过数据集列表页,可以查看数据集的信息,包括数据集名称/ID、数据格式、最新版本、状态、数据量等关键信息。
创建完成的数据集,可以在数据集列表中,选择希望查看的数据集,点击【数据集名称】进入该数据集的版本列表页。
通过数据集版本列表,可以查看该数据集所有版本的信息,包括版本号、版本描述、状态、数据量、预估 Tokens等关键信息。
其中,预估Tokens表示精调时数据集预计消耗的 token 数,不同模型的实际消耗数可能存在一定偏差。
点击数据集列表的【新建版本】操作,或点击数据集详情页右上角【新建版本】按钮,可在当前数据集基础上新增版本。填写新增版本表单,包括版本描述和文件上传。
用户可以删除不再需要的数据集版本,删除后不可恢复。
注意,删除操作可能带来不良影响,详见删除数据集。
入口:在数据集详情页中,将鼠标悬停在数据集列表中需要删除的数据集版本记录操作中的【···】,点击【删除】操作,按照弹窗提示完成操作。
删除数据集将删除该数据集下的所有数据集版本数据,删除后不可恢复。
注意
数据集或数据集的某个版本删除成功后:
该条数据记录不可见且不可恢复,请谨慎操作。
该条数据记录被删除不影响 TOS 存储的数据文件。如需同步删除,可前往 TOS。
请确保被删除数据集未被共享给其他用户,以避免影响其他用户使用。如该数据集为共享资源,请先前往资源管理-由我共享删除共享单元。更多说明请参考:资源共享-共享给我管理。
入口1:在数据集列表页面,将鼠标悬停在需要删除数据集记录操作中的【···】,点击【删除】操作,按照弹窗提示完成操作。
入口2:在数据集详情页中,将鼠标悬停在右上角的【···】,点击【删除】,按照弹窗提示完成操作。