You need to enable JavaScript to run this app.
导航
创建数据集
最近更新时间:2024.11.14 11:26:54首次发布时间:2024.04.17 14:21:04

本页面用于创建一个新的数据集 Collection。创建成功后,可以写入数据。

说明

  • 每一个数据集都有一个默认主键字段 ID,该字段不可删除,且只能修改字段类型。
  • 当字段配置添加了一个字段类型为 vector 的字段后,再添加新的字段时,字段类型不可选择 vector 类型。因为目前只支持单向量,不可添加多个向量字段。
  • 同一账户下数据集的数量上限是 200 个。

操作步骤
  1. 在左侧导航栏单击数据集,进入数据集页面。

  2. 单击数据集列表页面左上角的创建数据集,进入创建数据集页面。

  3. 创建数据集页面填写相关参数,具体参数如下。
    Image

    参数名称

    参数说明

    名称

    指定创建的数据集名称。必填

    • 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空。
    • 长度要求:[1, 128]。
    • 数据集名称不能重复。

    别名

    自定义数据集的别名。选填。

    • 可设置多个别名,每个别名回车确认。
    • 相同数据集别名不能重复。
    • 设置的别名已映射其他数据集,设置后将与原数据集解除,与当前数据集映射。
    • 长度要求:[1, 128]。

    描述

    自定义数据集的描述。选填

    • 长度要求:[0, 500]。

    字段配置

    默认字段:ID,不可删除,仅字段类型支持选择为 int64 或 string。

    • 字段名称为ID,字段类型默认为 int64,向量维度为空,默认值为--。

    自定义字段:单击字段列表下添加字段按钮,添加自定义字段。

    • 字段名称:填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填
    • 字段类型:在下拉列表选择字段类型,可选值:string、bool、list<string>、list<int64>、vector、int64、float32、text、sparse_vector。必填

      说明

      当定义字段,添加了一个向量类型 vector 的字段后,再添加新的字段,字段类型不可选择 vector 类型。因为目前只支持单稠密向量,不可添加多个稠密向量字段。
      如果需要定义sparse_vector稀疏向量字段,则必须配置vector稠密向量字段,即稀疏向量不能单独出现。

    • 向量维度:
      • 当字段类型选择为向量类型 vector 时,向量维度不能为空,格式为数字类型。必填
      • 当字段类型选择为标量类型时,向量维度不可输入,禁止编辑状态。
    • 默认值:
      • 当字段类型选择为向量类型 vector 时,默认值不可输入,禁止编辑状态。
      • 当字段类型选择为标量类型时,填写字段的默认值,只能使用英文字母、数字、下划线_,并以英文字母开头, 默认为--。必填
    • Pipeline:
      • 当字段类型为 text 时可以配置,系统会自动对传入该字段的文本试用 pipeline 进行向量化处理。
      • pipeline 只能设置一个,且不与任何向量类型字段共存。
      • 非必填
    • 删除:单击可以删除自定义字段。
  4. 填写完成后单击右下角提交,界面显示“数据集创建成功”,并弹出写入数据消息框。选择写入方式后界面展示该方式下的接入指导,可单击右侧接入指南,界面弹出帮助文档可查看具体操作步骤。
    数据写入现在支持在线流式写入本地数据导入两种形式。
    在线流式写入适用于在线服务数据实时写入生效场景,提供流式写入接口。

本地数据导入适用于首次建库,一次性大批量离线数据上传场景,提供大批量处理能力,速度更快。