本页面用于创建一个新的数据集 Collection。创建成功后,可以写入数据。
说明
- 当字段配置添加了一个字段类型为 vector 的字段后,再添加新的字段时,字段类型不可选择 vector 类型。因为目前只支持单向量,不可添加多个向量字段。
- 同一账户下数据集的数量上限是 200 个。
操作步骤
- 在左侧导航栏选择数据集,单击创建数据集进入数据集创建流程。

- 选择数据写入方式后进入数据集创建页。支持两种数据集创建方式:从向量化图文数据开始或直接导入已有向量数据。

- 在创建数据集页面填写相关参数,具体参数如下。
从向量化开始:

已有向量数据:

参数名称 | 参数说明 |
---|
名称 | 指定创建的数据集名称。必填。 - 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空。
- 长度要求:[1, 128]。
- 数据集名称不能重复。
|
别名 | 自定义数据集的别名。选填。 - 可设置多个别名,每个别名回车确认。
- 相同数据集别名不能重复。
- 设置的别名已映射其他数据集,设置后将与原数据集解除,与当前数据集映射。
- 长度要求:[1, 128]。
|
描述 | 自定义数据集的描述。选填。 |
向量信息 | 如果选择从向量化开始,需配置向量化模型信息和向量化字段信息;如果选择已有向量数据,直接配置向量字段信息。 |
- 使用场景:必填,选择从向量化开始可配置,选择文本或多模态场景会影响文本向量化模型的选择。
|
- 稠密向量:必填,需配置向量维度,字段名称,(向量化模型)。
|
- 稀疏向量:**选填,**需配置字段名称,(向量化模型)。
|
- 向量化模型:从向量化开始时需要选择向量化模型,必填。
|
- 向量维度:
- 直接导入向量数据时,配置稠密向量时向量维度不能为空,格式为数字类型。必填。
- 取值范围:[4, 4096],且必须是 4 的倍数。
- 稀疏向量没有向量维度。
|
- 字段名称:
- 填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填。
- 选择从向量化开始时为向量化字段名称,用于存储交给向量化模型向量化的数据。稠密向量和稀疏向量的向量化字段名称可一致,即对同一字段进行向量化。
- 选择已有向量数据时为字段名称,用于存储向量数据。稠密向量和稀疏向量的字段名称不一致,已向量化的数据存储在不同字段中。
|
字段配置 | 其他字段:单击字段列表下添加字段按钮,添加自定义字段。选填。 |
- 字段名称:填写字段名称,名称只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空,且名称不能重复,长度要求为 [1, 128]。必填。
|
- 字段类型:在下拉列表选择字段类型,可选值:string、bool、list<string>、list<int64>、int64、float3、text、image。必填。
|
- 默认值:
- 当字段类型选择不为text、image时,可填写字段的默认值。只能使用英文字母、数字、下划线_,并以英文字母开头, 默认为--。必填。
|
|
主键 | - 主键用于唯一标识一行数据。数据写入时主键不可重复,重复主键视为更新数据。
- 可选择自动生成主键或选择从其他字段中的 string/int64 类型字段中选择一个作为主键。(默认)
|
- 填写完成后单击右下角提交,界面显示“数据集创建成功”,并弹出写入数据消息框。选择写入方式后界面展示该方式下的接入指导,可单击右侧接入指南,界面弹出帮助文档可查看具体操作步骤。
数据写入现在支持在线同步写入,在线异步写入和本地数据导入两种形式。
在线流式写入适用于在线服务数据实时写入生效场景,提供流式写入接口。
在线异步写入适用于在线服务数据异步写入生效场景,提供流式写入接口。
本地数据导入适用于首次建库,一次性大批量离线数据上传场景,提供大批量处理能力,速度更快。