本页面用于创建一个新的数据集 Collection。创建成功后,可以写入数据。
说明
- 每一个数据集都有一个默认主键字段 ID,该字段不可删除,且只能修改字段类型。
- 当字段配置添加了一个字段类型为 vector 的字段后,再添加新的字段时,字段类型不可选择 vector 类型。因为目前只支持单向量,不可添加多个向量字段。
- 同一账户下数据集的数量上限是 200 个。
操作步骤
在左侧导航栏单击数据集,进入数据集页面。
单击数据集列表页面左上角的创建数据集,进入创建数据集页面。
在创建数据集页面填写相关参数,具体参数如下。
参数名称 | 参数说明 |
---|
名称 | 指定创建的数据集名称。必填。 - 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空。
- 长度要求:[1, 128]。
- 数据集名称不能重复。
|
别名 | 自定义数据集的别名。选填。 - 可设置多个别名,每个别名回车确认。
- 相同数据集别名不能重复。
- 设置的别名已映射其他数据集,设置后将与原数据集解除,与当前数据集映射。
- 长度要求:[1, 128]。
|
描述 | 自定义数据集的描述。选填。 |
字段配置 | 默认字段:ID,不可删除,仅字段类型支持选择为 int64 或 string。 - 字段名称为ID,字段类型默认为 int64,向量维度为空,默认值为--。
|
自定义字段:单击字段列表下添加字段按钮,添加自定义字段。 - 字段名称:填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填。
- 字段类型:在下拉列表选择字段类型,可选值:string、bool、list<string>、list<int64>、vector、int64、float32、text、sparse_vector。必填。
说明 当定义字段,添加了一个向量类型 vector 的字段后,再添加新的字段,字段类型不可选择 vector 类型。因为目前只支持单稠密向量,不可添加多个稠密向量字段。
如果需要定义sparse_vector稀疏向量字段,则必须配置vector稠密向量字段,即稀疏向量不能单独出现。 - 向量维度:
- 当字段类型选择为向量类型 vector 时,向量维度不能为空,格式为数字类型。必填。
- 当字段类型选择为标量类型时,向量维度不可输入,禁止编辑状态。
- 默认值:
- 当字段类型选择为向量类型 vector 时,默认值不可输入,禁止编辑状态。
- 当字段类型选择为标量类型时,填写字段的默认值,只能使用英文字母、数字、下划线_,并以英文字母开头, 默认为--。必填。
- Pipeline:
- 当字段类型为 text 时可以配置,系统会自动对传入该字段的文本试用 pipeline 进行向量化处理。
- pipeline 只能设置一个,且不与任何向量类型字段共存。
- 非必填
- 删除:单击可以删除自定义字段。
|
填写完成后单击右下角提交,界面显示“数据集创建成功”,并弹出写入数据消息框。选择写入方式后界面展示该方式下的接入指导,可单击右侧接入指南,界面弹出帮助文档可查看具体操作步骤。
数据写入现在支持在线流式写入和本地数据导入两种形式。
在线流式写入适用于在线服务数据实时写入生效场景,提供流式写入接口。
本地数据导入适用于首次建库,一次性大批量离线数据上传场景,提供大批量处理能力,速度更快。