You need to enable JavaScript to run this app.
导航
创建数据集
最近更新时间:2025.02.19 21:15:05首次发布时间:2024.04.17 14:21:04

本页面用于创建一个新的数据集 Collection。创建成功后,可以写入数据。

说明

  • 当字段配置添加了一个字段类型为 vector 的字段后,再添加新的字段时,字段类型不可选择 vector 类型。因为目前只支持单向量,不可添加多个向量字段。
  • 同一账户下数据集的数量上限是 200 个。

操作步骤
  1. 在左侧导航栏选择数据集,单击创建数据集进入数据集创建流程。

Image

  1. 选择数据写入方式后进入数据集创建页。支持两种数据集创建方式:从向量化图文数据开始直接导入已有向量数据。

Image

  1. 创建数据集页面填写相关参数,具体参数如下。

从向量化开始:
Image

已有向量数据:
Image

参数名称

参数说明

名称

指定创建的数据集名称。必填

  • 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空。
  • 长度要求:[1, 128]。
  • 数据集名称不能重复。

别名

自定义数据集的别名。选填。

  • 可设置多个别名,每个别名回车确认。
  • 相同数据集别名不能重复。
  • 设置的别名已映射其他数据集,设置后将与原数据集解除,与当前数据集映射。
  • 长度要求:[1, 128]。

描述

自定义数据集的描述。选填

  • 长度要求:[0, 500]。

向量信息

如果选择从向量化开始,需配置向量化模型信息和向量化字段信息;如果选择已有向量数据,直接配置向量字段信息。

  • 使用场景:必填,选择从向量化开始可配置,选择文本或多模态场景会影响文本向量化模型的选择。
  • 稠密向量:必填,需配置向量维度,字段名称,(向量化模型)。
  • 稀疏向量:**选填,**需配置字段名称,(向量化模型)。
  • 向量化模型:从向量化开始时需要选择向量化模型,必填。
  • 向量维度:
    • 直接导入向量数据时,配置稠密向量时向量维度不能为空,格式为数字类型。必填
    • 取值范围:[4, 4096],且必须是 4 的倍数。
    • 稀疏向量没有向量维度。
  • 字段名称:
    • 填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填
    • 选择从向量化开始时为向量化字段名称,用于存储交给向量化模型向量化的数据。稠密向量和稀疏向量的向量化字段名称可一致,即对同一字段进行向量化。
    • 选择已有向量数据时为字段名称,用于存储向量数据。稠密向量和稀疏向量的字段名称不一致,已向量化的数据存储在不同字段中。

字段配置

其他字段:单击字段列表下添加字段按钮,添加自定义字段。选填。

  • 字段名称:填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填
  • 字段类型:在下拉列表选择字段类型,可选值:string、bool、list<string>、list<int64>、int64、float3、text、image。必填
  • 默认值:
    • 当字段类型选择不为text、image时,可填写字段的默认值。只能使用英文字母、数字、下划线_,并以英文字母开头, 默认为--。必填
  • 删除:单击可以删除自定义字段。

主键

  • 主键用于唯一标识一行数据。数据写入时主键不可重复,重复主键视为更新数据。
  • 可选择自动生成主键或选择从其他字段中的 string/int64 类型字段中选择一个作为主键。(默认)
  1. 填写完成后单击右下角提交,界面显示“数据集创建成功”,并弹出写入数据消息框。选择写入方式后界面展示该方式下的接入指导,可单击右侧接入指南,界面弹出帮助文档可查看具体操作步骤。
    数据写入现在支持在线同步写入,在线异步写入本地数据导入两种形式。
    在线流式写入适用于在线服务数据实时写入生效场景,提供流式写入接口。

在线异步写入适用于在线服务数据异步写入生效场景,提供流式写入接口。

本地数据导入适用于首次建库,一次性大批量离线数据上传场景,提供大批量处理能力,速度更快。