- 哪些因素会影响向量数据库的召回率?
召回率主要受到索引配置的影响:
- 对于 FLAT 索引,其召回率为 100%。
- 对于 HNSW 索引,如果开启量化方式,例如使用 int8,会将 float 4 字节压缩至 1 字节,以最多 2 - 3% 的精度丢失来换取 40% 的性能提升。
- 索引的搜索参数,例如提高 sef 能够提高在图上搜索的点数和召回率,但会降低查询性能。
- 为什么前端页面的数据条数跟实际写入的条数不一致?
因为从性能角度考虑,数据量统计是通过采样获取,有一定误差,不影响使用。
- 是否可以在插入数据前为数据集预先创建索引?
可以。写入数据之前可以先创建索引,索引就绪后同步写入的数据能够被实时检索到。
- 为什么搜索或查询返回的结果数小于设置的 limit?
- 会有两种情况:
- 数据集总数据量不足,没有足够的数据满足您要求的限制。
- 满足检索过滤条件的数据量不足。