本节将说明如何创建一个新的知识库。创建成功后,可以导入文档。
操作步骤
- 单击知识库列表页右上角的【创建知识库】,进入知识库创建页面
- 在创建知识库页面填写相关参数,具体参数如下。
配置类别 | 参数名称 | 是否必填 | 参数说明 |
---|
基础信息 | 名称 | 必填 | 指定创建的知识库名称。 - 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空
- 长度要求:[1, 64]
- 知识库名称不能重复
|
描述 | 必填 | 自定义知识库的描述。 - 长度要求:[0, 500]
- eg:创建了一个法律行业的知识库,描述为“法律文书知识,包括《中华人民共和国刑法修正案(十二)》、《中华人民共和国民法典》等法条,近年裁判文书等。”
|
数据类型 | 必选 | 知识库的数据类型。 - 非结构化数据:文件的主要内容为文本和图表,如文章、报告、书籍等,支持 word、doc/docx、pptx、pdf、markdown、txt 格式
- 结构化数据:文件的主要内容为结构化文本,需具备明确的字段约束,如问答总结、政策条款、数据收集等,支持 csv、xlsx、jsonl 格式
|
配置知识库 | 文本向量化模型 | 必选 | 各个向量化模型的特点和使用建议: - Doubao-embedding+多功能版——综合字节自研向量化模型及多功能版的优势,融合语义和关键词检索,适合大多数场景,检索效果表现最佳
- Doubao-embedding——字节跳动自研向量化模型,支持中英双语和高精度纯语义检索,支持 4k Token 的较长输入窗口,在纯语义检索的场景带来更好的表现。默认向量维度为 2048 维,若数据量极大且性能要求极高时,可考虑降维到 1024 以提升检索效率
- 短文本高精度+多功能版——基于语言模型抽取字面匹配特征及语义特征,检索时兼顾两者,能带来最好的检索效果。模型会分别使用最高质量的向量化模型产出稠密向量和稀疏向量,分别适用于语义检索和关键词检索。这个模型在关注语义相似性的同时兼顾字面上的匹配,带来更优的检索效果
- 多功能版——支持 8k Token 的长输入窗口,同时也支持多语言检索和跨语言检索。模型会产出稠密向量和稀疏向量,分别适用于语义检索和关键词检索。这个模型在关注语义相似性的同时兼顾字面上的匹配,带来更优的检索效果
- 短文本高精度版——支持中文,在纯语义检索中能带来较好的检索效果
|
向量纬度 | 必选 | 用于控制将原始文本、图片等映射到高维空间中时,所生成向量的维数。取值越高,检索准确性越高。若数据量极大且性能要求极高时,可考虑降维以提升检索效率。 |
切片方式 | 必选 | 仅在数据类型为“非结构化数据”支持配置。
支持默认切片规则和自定义切片规则 - 默认切片规则:平台默认的切片规则
- 自定义切片规则:支持自定义文本分隔符、文本片合并策略设置
|
默认切片规则/切片最大长度 | 必填 | 仅在数据类型为“非结构化数据”,切片方式为”默认切片规则“时支持配置。
经过解析、切片处理后单个文本片的最大长度。请确保切片最大长度略小于向量化模型的最大输入长度,否则文本超长的部分会被模型丢弃。 |
默认切片规则 / 合并短文本片 | 非必填 | 仅在数据类型为“非结构化数据”,切片方式为“默认切片规则”支持配置。
配置是否对短文本片进行合并,且合并后的文本片会限制不超过切片最大长度 |
默认切片规则 / 图片 OCR | 非必填 | 仅在数据类型为“非结构化数据”,切片方式为“默认切片规则”支持配置。
配置是否开启图片 OCR 能力,开启后可支持对 pdf、docx 文档中的图片进行文字识别,辅助检索召回 |
自定义切片规则 / 分隔符号 | 必填 | 仅在数据类型为“非结构化数据”,切片方式为“自定义切片规则”支持配置。 注意 若设置了分隔符号,切片最大长度限制和合并短文本片策略将不会生效,且无法解析图片,表格将作为普通文本段落处理 |
CPU 配额 | 必填 | 索引检索消耗的 CPU 配额,1 CPU 核 约为 100 QPS;如果检索消耗的 CPU 超过配额,该索引会被限流,格式为正整数。 |
字段配置 | 上传文档 | 非必填 | 仅在数据类型为“结构化数据”支持配置。
可以上传示例文档,用于确定表结构。后续知识库的文档须符合该结构规范,支持 csv、xlsx、jsonl 格式 |
表结构 | 必填 | 仅在数据类型为“结构化数据”支持配置。
用于后续导入文档时的字段校验。 |
高级配置 | 索引算法 | 必选 | 索引算法,默认 HNSW-Hybrid,枚举值:HNSW-Hybrid、HNSW、FLAT。 - HNSW:全称是 Hierarchical Navigable Small World,一种用于在高维空间中采用 ANN 搜索的数据结构和算法,是基于图的索引。HNSW通过构建多层网络减少搜索过程中需要访问的节点数量,实现快速高效地搜索最近邻,适用于大规模数据集,对检索性能要求高的场景
- HNSW-Hybrid:支持混合索引的 HNSW 算法。混合索引算法可以同时对数据集中的稠密向量和稀疏向量进行索引,并在检索时返回兼顾两种类型相似性的结果。适用于对搜索效率要求较高,且需要同时检索稀疏和稠密向量的场景。
- FLAT:暴力索引,搜索时遍历整个向量数据库的所有向量与目标向量进行距离计算和比较,查询速度较慢,但是 FLAT 能提供100%的检索召回率,适用于小规模数据集,对检索精度要求高的场景。
不同的向量化模型有着不同的索引算法配置: - Doubao-embedding+多功能版:支持 HNSW-Hybrid
- Doubao-embedding:支持 HNSW、FLAT
- 短文本高精度版:支持 HNSW、FLAT
- 多功能版:支持 HNSW-Hybrid、HNSW、FLAT
- 短文本高精度+多功能版:仅支持 HNSW-Hybrid
注意 多功能版模型会同时产出稠密向量和稀疏向量,分别适用于语义检索和关键词检索。默认的 HNSW-Hybrid 算法可以兼顾稠密向量和稀疏向量,在关注语义相似性的同时兼顾字面上的匹配,带来更优的检索效果。
您也可以使用 HNSW 或 FLAT 算法搭配多功能版模型,此时索引只会索引模型产出的稠密向量,即只支持语义检索能力。 |
量化方式 | 必选 | 量化方式。量化方式是索引中对向量的压缩方式,可以降低向量间相似性计算的复杂度。基于向量的高维度和大规模特点,采用向量量化可以有效减少向量的存储和计算成本。默认 Int8,枚举值:Int8、Float、Fix16。 - Int8:将 4 字节的 float 压缩为单个字节,以获取内存和计算延迟的收益,会造成微小的损失精度,比如 cosine 距离会出现大于1的分值。通过损失一定的检索精度,提升检索性能,节约资源成本。
- Float:全精度,未做压缩量化。
- Fix16:将 4 字节的 float 压缩为两个字节,以获取内存和计算延迟的收益,会造成微小的损失精度。通过损失一定的检索精度,提升检索性能,节约资源成本。
|
标签 / 添加字段 | 非必填 | 单击字段列表下【添加标签】按钮,添加自定义标签,此处的标签可用于在线检索时对文档进行过滤。 |
标签 / 标签名 | 必填 | 填写字段名称,不能为空,且名称不能重复,长度要求为 [1, 128]。 |
标签 / 标签类型 | 必填 | 在下拉列表选择字段类型,可选值:bool、list<string>、int64、float32。 |
标签 / 标签选项 | 非必填 | 当所选类型为 list<string> 时,可以指定选项值,后续文档打标签可直接选择。 |
标签 / 删除 | 可选 | 单击可以删除当前标签。 |
- 填写完成后单击右侧「创建知识库」,界面显示“知识库创建成功”。若需要立即导入文档可在弹窗中点击「立即导入」,若稍后再导入可选择「暂不导入」。
- 导入文档支持本地上传、从TOS中导入、公开下载链接三种方式,可以参考知识库文档格式说明 及前端示例文件准备导入文档。