基础信息 | 名称 | 必填 | 指定创建的知识库名称。 - 只能使用英文字母、数字、下划线_,并以英文字母开头,不能为空
- 长度要求:[1, 64]
- 知识库名称不能重复
|
描述 | 必填 | 自定义知识库的描述。 - 长度要求:[0, 500]
- eg:创建了一个法律行业的知识库,描述为“法律文书知识,包括《中华人民共和国刑法修正案(十二)》、《中华人民共和国民法典》等法条,近年裁判文书等。”
|
数据类型 | 必选 | 知识库的数据类型。 - 非结构化数据:文件的主要内容为文本和图表,如文章、报告、书籍等,支持 word、doc/docx、pptx、pdf、markdown、txt 格式
- 结构化数据:文件的主要内容为结构化文本,需具备明确的字段约束,如问答总结、政策条款、数据收集等,支持 csv、xlsx、jsonl 格式
|
配置知识库 | 文本向量化模型 | 必选 | 平台提供的默认模型为: Doubao-embedding-240715+关键词模型,同时可根据实际业务场景更换其他模型。
各个向量化模型的特点和使用建议: - Doubao-embedding-large-240915+关键词模型——综合Doubao-embedding-large(240915版本)与多语言版的优势,融合语义检索和关键词匹配,适用大多数场景,检索效果最佳
- Doubao-embedding-240715+关键词模型——综合Doubao Embedding(240715版本)与多语言版的优势,融合语义检索和关键词匹配,适用大多数场景
- 短文本高精度+关键词模型——结合短文本高精度与多功能版的优势,融合语义检索和关键词匹配,适用短文本
- 多语言模型——支持多语言及跨语言,融合语义检索和关键词匹配,长达 8k Tokens 的输入窗口,适用长文本
- Doubao-embedding-large-240915——Doubao-embedding-large(240915版本)相比Doubao-embedding拥有更大的模型参数量,中英文Retrieval效果领先。主要面向向量检索的使用场景,支持中、英双语,最长 4K 上下文长度
- Doubao-embedding-240715——是一款由字节跳动研发的语义向量化模型,主要面向向量检索的使用场景,支持中、英双语,最长 4K 上下文长度,中英文Retrieval效果较240515版本有较大提升,推荐使用该版本
- 短文本高精度模型——仅支持中文,仅纯语义检索,适用短文本
|
向量纬度 | 必选 | 用于控制将原始文本、图片等映射到高维空间中时,所生成向量的维数。取值越高,检索准确性越高。若数据量极大且性能要求极高时,可考虑降维以提升检索效率。 |
切片方式 | 必选 | 仅在数据类型为“非结构化数据”支持配置。
支持默认切片规则和自定义切片规则 - 默认切片规则:平台默认的切片规则
- 自定义切片规则:支持自定义文本分隔符、文本片合并策略设置
|
默认切片规则/切片最大长度 | 必填 | 仅在数据类型为“非结构化数据”,切片方式为”默认切片规则“时支持配置。
经过解析、切片处理后单个文本片的最大长度。请确保切片最大长度略小于向量化模型的最大输入长度,否则文本超长的部分会被模型丢弃。 |
默认切片规则 / 合并短文本片 | 非必填 | 仅在数据类型为“非结构化数据”,切片方式为“默认切片规则”支持配置。
配置是否对短文本片进行合并,且合并后的文本片会限制不超过切片最大长度 |
默认切片规则 / 图片 OCR | 非必填 | 仅在数据类型为“非结构化数据”,切片方式为“默认切片规则”支持配置。
配置是否开启图片 OCR 能力,开启后可支持对 pdf、docx 文档中的图片进行文字识别,辅助检索召回 |
自定义切片规则 / 分隔符号 | 必填 | 仅在数据类型为“非结构化数据”,切片方式为“自定义切片规则”支持配置。 注意 若设置了分隔符号,切片最大长度限制和合并短文本片策略将不会生效,且无法解析图片,表格将作为普通文本段落处理 |
CPU 配额 | 必填 | 索引检索消耗的 CPU 配额,1 CPU 核 约为 100 QPS;如果检索消耗的 CPU 超过配额,该索引会被限流,格式为正整数。 |
字段配置 | 上传文档 | 非必填 | 仅在数据类型为“结构化数据”支持配置。
可以上传示例文档,用于确定表结构。后续知识库的文档须符合该结构规范,支持 csv、xlsx、jsonl 格式 |
表结构 | 必填 | 仅在数据类型为“结构化数据”支持配置。
用于后续导入文档时的字段校验。 |
高级配置 | 索引算法 | 必选 | 索引算法,默认 HNSW-Hybrid,枚举值:HNSW-Hybrid、HNSW、FLAT。 - HNSW:全称是 Hierarchical Navigable Small World,一种用于在高维空间中采用 ANN 搜索的数据结构和算法,是基于图的索引。HNSW通过构建多层网络减少搜索过程中需要访问的节点数量,实现快速高效地搜索最近邻,适用于大规模数据集,对检索性能要求高的场景
- HNSW-Hybrid:支持混合索引的 HNSW 算法。混合索引算法可以同时对数据集中的稠密向量和稀疏向量进行索引,并在检索时返回兼顾两种类型相似性的结果。适用于对搜索效率要求较高,且需要同时检索稀疏和稠密向量的场景。
- FLAT:暴力索引,搜索时遍历整个向量数据库的所有向量与目标向量进行距离计算和比较,查询速度较慢,但是 FLAT 能提供100%的检索召回率,适用于小规模数据集,对检索精度要求高的场景。
不同的向量化模型有着不同的索引算法配置: - Doubao-embedding-large-240915+关键词模型:支持 HNSW-Hybrid
- Doubao-embedding-240715+关键词模型:支持 HNSW-Hybrid
- 短文本高精度+关键词模型:支持 HNSW-Hybrid
- 多语言模型:支持 HNSW-Hybrid、HNSW、FLAT
- Doubao-embedding-large-240915:支持 HNSW、FLAT
- Doubao-embedding-240715:支持 HNSW、FLAT
- 短文本高精度模型:支持 HNSW、FLAT
注意 多语言模型会同时产出稠密向量和稀疏向量,分别适用于语义检索和关键词检索。默认的 HNSW-Hybrid 算法可以兼顾稠密向量和稀疏向量,在关注语义相似性的同时兼顾字面上的匹配,带来更优的检索效果。
您也可以使用 HNSW 或 FLAT 算法搭配多模语言模模型,此时索引只会索引模型产出的稠密向量,即只支持语义检索能力。 |
量化方式 | 必选 | 量化方式。量化方式是索引中对向量的压缩方式,可以降低向量间相似性计算的复杂度。基于向量的高维度和大规模特点,采用向量量化可以有效减少向量的存储和计算成本。默认 Int8,枚举值:Int8、Float、Fix16。 - Int8:将 4 字节的 float 压缩为单个字节,以获取内存和计算延迟的收益,会造成微小的损失精度,比如 cosine 距离会出现大于1的分值。通过损失一定的检索精度,提升检索性能,节约资源成本。
- Float:全精度,未做压缩量化。
- Fix16:将 4 字节的 float 压缩为两个字节,以获取内存和计算延迟的收益,会造成微小的损失精度。通过损失一定的检索精度,提升检索性能,节约资源成本。
|
标签 / 添加字段 | 非必填 | 单击字段列表下【添加标签】按钮,添加自定义标签,此处的标签可用于在线检索时对文档进行过滤。 |
标签 / 标签名 | 必填 | 填写字段名称,不能为空,且名称不能重复,长度要求为 [1, 128]。 |
标签 / 标签类型 | 必填 | 在下拉列表选择字段类型,可选值:bool、list<string>、int64、float32。 |
标签 / 标签选项 | 非必填 | 当所选类型为 list<string> 时,可以指定选项值,后续文档打标签可直接选择。 |
标签 / 删除 | 可选 | 单击可以删除当前标签。 |