You need to enable JavaScript to run this app.
导航
数据集管理
最近更新时间:2025.04.22 17:00:31首次发布时间:2025.04.22 17:00:31
我的收藏
有用
有用
无用
无用

AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集推理数据集

创建数据集

通用数据集

通用数据集用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。

操作步骤

  1. 登陆LAS控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 通用数据集,进入数据集列表页面。
  4. 点击创建数据集

参数

描述

数据集名称

长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符

数据类型

选择数据格式,支持结构化数据、文本、图像以及开放格式。如果选择了特定格式,则会在后续的场景中进行数据集的类型筛选。

数据格式

选择数据格式,后续将根据选择的格式进行数据的读取

数据来源

当前支持从对象存储 TOS 中读取数据并创建数据集

TOS路径

可以选择或者输入文件的存储位置,以 tos:// 开头,请确保路径的准确性

推理数据集

推理数据集是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、蒸馏等下游任务,持续优化大模型训练效果,以契合业务场景需求。
发起模型蒸馏服务为例,若需获取详细说明,请查看下列视频。


前提条件

  • 具备火山方舟 Standard 或以上权限
  • 在火山方舟内完成创建自定义推理接入点,详见查看并管理推理接入点,在配置页面须开启数据投递至私有数据湖

操作步骤

  1. 登陆LAS控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 推理数据集,进入推理结果数据集列表页面。
  4. 点击前往创建,跳转至火山方舟 > 数据集 > 我的数据湖
  1. 单击管理数据投递,在弹出的列表中激活指定的自定义推理接入点作为您的数据来源。或者进入接入点详情页开启此项设置。

Image
Image

  1. 在接入点详情页,单击对话体验即可快速调用模型进行对话,也可以通过 API 调用当前推理接入点进行访问。对话或者推理数据将自动以结构化形式入库。
  1. 单击前往 AI 数据湖服务编辑数据,返回 LAS 控制台 > 数据集 > 推理数据集,查看对应推理数据集
  2. 您可通过工作流对推理数据集进行处理,处理完成后单击导出可将数据保存为通用数据集

查询

数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。

导出

支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。

日志

数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。