本页面用于介绍如何进行向量检索测试,可配置查询向量、限制(Top-K)、子索引后查看向量检索结果。
向量检索是一种基于向量空间模型的检索方法,通过计算向量之间的相似度进行检索。在一个给定向量数据集中,向量检索按照某种度量方式(比如内积、欧式距离),对向量构建的一种时间和空间上比较高效的数据结构,能够高效地检索出与目标向量相似的 K 个向量。
注意
- 当索引的执行状态为已就绪时,才支持操作检索测试;当索引的执行状态为初始化中、失败时,不支持操作检索测试。
- 标量过滤参数配置时,表示混合检索;该参数未配置时,表示向量检索,本页面该参数无需配置。
- 当查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量;当查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。对于混合索引,不配置查询向量表示稠密向量为全 0,稀疏向量为全0。
操作步骤
- 检索测试页面有两种进入方式:
- 方式一:在左侧导航栏单击索引,进入索引页面。单击索引列表指定索引操作列的检索测试,进入检索测试页面。
- 方式二:在左侧导航栏单击索引,进入索引页面。单击索引列表指定索引的名称,进入索引详情页面,单击检索测试页签。
- 在检索测试页面,输入查询向量、限制(Top-K)、子索引。对于包含了稠密向量和稀疏向量的混合索引,检索测试还将会有dense_weight参数,用于控制混合检索中稠密向量的权重,并且您需要同时输入稠密向量和稀疏向量进行检索。如果这个索引绑定了 pipeline,您可以在输入框中输入文本来进行端到端的文本检索。
绑定了 pipeline 的情况:
混合索引检索测试的情况:
纯稠密向量检索测试的情况:
检索条件 | 参数说明 |
---|
查询向量(对于没有绑定 pipeline 的索引) | 输入 JSON 数组字符串,向量维度为创建数据集时定义向量字段的维度。选填。 - 当查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量。
- 当查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。
- 对于混合索引,需要同时输入稠密向量和稀疏向量,且两种向量的数量一致。下标相同的稠密向量和稀疏向量表示同一对象。
|
查询文本(对于绑定了 pipeline 的索引) | 输入纯文本进行检索。 |
限制(Top-K) | 输入 Top-K 值,默认100,表示检索返回多少个结果。必填。 |
Dense_weight | 仅混合索引会出现。用于调整混合索引中稠密向量的比重,范围为[0.2, 1], 越偏向 1 表示越注重语义检索,越偏向 0 表示越偏向于关键词检索。 |
子索引 | 在下拉列表中选择子索引,即《新建索引》页面中子索引划分字段选择的字段名称所对应的字段值。必填。 - 子索引划分字段未设置时,则子索引下拉框默认为 default。
- 适用场景:适用于将数据集划分为多个子数据集,在某个子数据集/子索引内部检索等检索模式固定的场景。比如,根据国家 ID 将数据集拆分,针对某个国家 ID 的子索引检索场景,无需对国家 ID 进行过滤,提升检索性能。
|
标量过滤 | 指定标量过滤条件,本页面该参数无需配置。 - 该参数未配置时,表示向量检索。
- 该参数配置时,表示标量过滤检索。
|
- 单击左下角查询后可查看向量结果。
当查询向量配置时,表示按照输入的查询向量检索出相似的 K 个向量,查询结果默认按照 score 从高到低排序。
当查询向量未配置时,表示默认按照向量 [0,0,0,0......] 检索出相似的 K 个向量。
对于绑定了 pipeline 的文本,会根据使用的 pipeline 检索出相似的 K 条文本