AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集与推理数据集。
通用数据集用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。
参数 | 描述 |
---|---|
数据集名称 | 长度1-100个字符 |
数据类型 | 选择数据格式,支持结构化数据、文本、图像以及开放格式。如果选择了特定格式,则会在后续的场景中进行数据集的类型筛选。 |
数据格式 | 选择数据格式,后续将根据选择的格式进行数据的读取 |
数据来源 | 当前支持从对象存储 TOS 中读取数据并创建数据集 |
TOS路径 | 可以选择或者输入文件的存储位置,以 |
推理数据集是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、蒸馏等下游任务,持续优化大模型训练效果,以契合业务场景需求。
以发起模型蒸馏服务为例,若需获取详细说明,请查看下列视频。
数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。
支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。
数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。