/api/knowledge/collection/create 接口用于创建一个新的知识库。创建成功后,可以导入数据。
完成“签名鉴权方式“页面的注册账号、实名认证、AK/SK 密钥获取和签名获取后,可调用 API 接口实现知识库的创建功能。
URI | /api/knowledge/collection/create | 统一资源标识符 |
---|---|---|
请求方法 | POST | 客户端对向量数据库服务器请求的操作类型 |
请求头 | Content-Type: application/json | 请求消息类型 |
Authorization: HMAC-SHA256 *** | 鉴权 |
参数 | 子参数 | 类型 | 是否必选 | 默认值 | 参数说明 |
---|---|---|---|---|---|
name | -- | string | 是 | -- | 知识库的名字
|
project | -- | string | 否 | default | 知识库所属项目,即在【访问控制】-【资源管理】-【项目】中创建的项目 |
description | -- | string | 否 | "" | 知识库描述信息
|
data_type | string | 否 | unstructured_data | 知识库内的数据类型
| |
preprocessing | object | 否 | 非结构化文档处理策略 | ||
chunking_strategy | string | 选用的切片策略,枚举值:["custom_balance", "custom"]
| |||
chunking_identifier | list | 否 | -- | 自定义分隔符号 | |
chunk_length | int | 否 | 500 | 切片最大长度 | |
merge_small_chunks | bool | 否 | true | 是否合并短文本片 | |
multi_modal | -- | 否 | -- | 图片召回策略
传参示例:
使用旧参数命名“multi_mode"创建的库仍保留原命名,但新创建知识库不推荐继续使用。 | |
table_config | object | 否 | 当 data_type为“structured_data”时生效
| ||
index | object | 否 | -- | 索引配置 | |
index_config | object | 否 | -- |
注:
| |
index_type | string | 否 | hnsw_hybrid | 指定索引算法,支持 hnsw_hybrid、hnsw 和 flat |
向量化模型 | 产出类型 | 索引类型 | 向量维度 | 量化方式 | chunk_length 取值 | 检索类型 |
---|---|---|---|---|---|---|
doubao-embedding-and-m3 | 稠密向量和稀疏向量 | hnsw_hybrid | 1024、2048 | int8、float、fix16 | [100, 4000] | 混合检索(兼顾语义检索和关键词匹配) |
doubao-embedding | 稠密向量 | hnsw、flat | 1024、2048 | int8、float、fix16 | [100, 4000] | 语义检索(字节自研模型) |
doubao-embedding-large-and-m3 | 稠密向量和稀疏向量 | hnsw_hybrid | 1024、2048 | int8、float、fix16 | [100, 4000] | 混合检索(兼顾语义检索和关键词匹配) |
doubao-embedding-large | 稠密向量 | hnsw、flat | 1024、2048 | int8、float、fix16 | [100, 4000] | 语义检索(字节自研模型) |
bge-large-zh | 稠密向量 | hnsw、flat | 1024 | int8、float、fix16 | [100, 500] | 语义检索 |
bge-m3 | 稠密向量和稀疏向量 | hnsw_hybrid | 1024 | int8、float、fix16 | [100, 8000] | 混合检索(兼顾语义检索和关键词匹配) |
hnsw、flat | 1024 | int8、float、fix16 | [100, 8000] | 语义检索(此时稀疏向量被忽略,适用于只需要长文本窗口、多语言检索的纯语义检索场景) | ||
bge-large-zh-and-m3 | 稠密向量和稀疏向量 | hnsw_hybrid | 1024 | int8、float、fix16 | [100, 500] | 混合检索(兼顾语义检索和关键词匹配) |
参数 | 参数说明 |
---|---|
code | 状态码 |
message | 返回信息 |
data | 返回的详细信息 |
request_id | 标识每个请求的唯一标识符 |
状态码 | http状态码 | 返回信息 | 状态码说明 |
---|---|---|---|
0 | 200 | success | 成功 |
1000001 | 403 | unauthorized | 鉴权失败 |
1000002 | 403 | no permission | 权限不足 |
1000003 | 400 | invalid request:%s | 非法参数
|
1000004 | 400 | collection exist | collection已存在 |
curl -i -X POST \ -H 'Content-Type: application/json' \ -H 'Authorization: HMAC-SHA256 ***' \ https://api-knowledgebase.mlp.cn-beijing.volces.com/api/knowledge/collection/create \ -d '{ "name": "apiexample", "description": "test", "index": { "index_type": "hnsw_hybrid", "index_config": { "fields": [], "quant": "int8", "cpu_quota": 1, "embedding_model": "doubao-embedding-and-m3", "embedding_dimension": 2048 } }, "table_config": { "table_type": "row", "table_pos": 1, "start_pos": 2, "table_fields": [ { "field_type": "string", "field_name": "讲解模块", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "子模块", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "问题示例", "if_embedding": True, "if_filter": False }, { "field_type": "string", "field_name": "记忆化 ————讲解要点", "if_embedding": True, "if_filter": False } ] }, "data_type": "structured_data", "project": "default" } }'
执行成功返回:
HTTP/1.1 200 OK Content-Length: 43 Content-Type: application/json { "code":0, "message":"success", "data": { "resource_id": "kb-8349ef57441ab57" }, "request_id":"021695029537650fd001de666660000000000000000000230da93" }
执行失败返回:
HTTP/1.1 400 OK Content-Length: 43 Content-Type: application/json {"code":1000003, "message":"invalid request:%s", "request_id": "021695029757920fd001de6666600000000000000000002569b8f"}