create--向量数据库VikingDB-火山引擎

文档中心

立即注册

导航

create

最近更新时间：2025.02.24 16:34:07首次发布时间：2024.04.17 14:21:06

概述

/collection/create 接口用于创建一个新的数据集 Collection。创建成功后，可以写入数据。

说明

每一个 Collection 必须指定主键字段。
当定义字段 fields 添加了一个向量类型 vector 的字段后，再添加新的字段时，字段类型不可选择 vector 类型。因为目前只支持单向量，不可添加多个向量字段。
推荐通过 vectorize 参数对图片和文本数据进行向量化，已使用 pipeline 进行文本向量化的用户，pipeline_name 子参数依然提供服务。
当定义字段 fields 添加了带 pipeline_name 的 text 字段，则不允许添加 vector 或 sparse_vector 字段，且只能有一个带 pipeline_name 的 text 字段；当定义字段 fields 添加了不带 pipeline_name 的 text 字段，则允许添加 vector 字段，且允许添加多个不带 pipeline_name 的 text 字段，最多200个。

请求接口

说明

请求向量数据库 VikingDB 的 OpenAPI 接口时，需要构造签名进行鉴权，详细的 OpenAPI 签名调用方法请参见 API签名调用指南。

URI	/api/collection/create	统一资源标识符
请求方法	POST	客户端对向量数据库服务器请求的操作类型
请求头	Content-Type: application/json	请求消息类型
请求头	Authorization: HMAC-SHA256 ***	鉴权

请求参数

参数	子参数	类型	是否必选	默认值	参数说明
collection_name	--	string	是	--	指定创建的 Collection 名称。只能使用英文字母、数字、下划线_，并以英文字母开头，不能为空。长度要求：[1, 128]。 Collection 名称不能重复。
collection_aliases	--	array	否	--	自定义数据集的别名。可设置多个别名，每个别名回车确认。相同数据集别名不能重复。设置的别名已映射其他数据集，设置后将与原数据集解除，与当前数据集映射。只能使用英文字母、数字、下划线_，并以英文字母开头。长度要求：[1, 128]。
description	--	string	否	""	自定义 Collection 的描述。长度要求：[0, 65535]。
primary_key	--	string	是	--	主键用于唯一标识一行数据。自定义主键：可以从 fields 定义的字段列表中选出某一个 int64 类型 / string 类型的字段作为主键字段。自动生成主键：可设置为 `__AUTO_ID__`系统会自动为该主键生成 int64 数字作为主键值。
fields 说明一个 Collection 里的 fields 数量上限是 200。	field_name	string	是	--	指定自定义字段的名称。只能使用英文字母、数字、下划线_，并以英文字母开头，不能为空。长度要求：[1, 128]。字段名称不能重复。
	field_type	string	是	--	指定自定义字段类型，可选值详见 field_type 可选值说明。
	default_val	和field_type一致	否	--	指定自定义字段默认值，默认值详见 field_type 可选值说明。当 field_name 作为主键时，default_val 不会生效，同时也不会被校验。
	dim	int	field_type 为vector 时必选	--	指定自定义字段向量维度。取值范围：[4, 4096]，且必须是 4 的倍数。向量维度是指向量中包含的元素的数量。
vectorize	dense	map	否（填写 vectorize 时必选）	--	稠密向量的向量化参数。子参数见下"向量化参数"表。
vectorize	sparse	map	否	--	稀疏向量的向量化参数。如果无需稀疏向量，则不必填写。子参数见下"向量化参数"表。

说明

推荐通过**vectorize参数**对文本进行向量化，已使用 pipeline 的用户，pipeline_name 子参数依然提供服务。

参数	子参数	类型	是否必选	默认值	参数说明
fields 注意如果使用了`vectorize`参数，则 fields 里不能使用pipeline_name。	pipeline_name	string	field_type 为 text 时可选	--	文本。纯文本预处理能力 pipeline 是指向量数据库将文本切片、文本向量化、入库、存储自动化的预处理流程。支持以string形式写入原始数据。 pipeline_name 枚举值如下： text_doubao_embedding； text_doubao_embedding_and_m3； text_bge_large_zh； text_bge_m3； text_bge_large_and_m3。模型参数参考“模型列表”

参数

子参数

类型

是否必选

默认值

参数说明

fields

注意

如果使用了vectorize参数，则 fields 里不能使用pipeline_name。

pipeline_name

string

field_type 为 text 时可选

文本。纯文本预处理能力 pipeline 是指向量数据库将文本切片、文本向量化、入库、存储自动化的预处理流程。支持以string形式写入原始数据。
pipeline_name 枚举值如下：

text_doubao_embedding；
text_doubao_embedding_and_m3；
text_bge_large_zh；
text_bge_m3；
text_bge_large_and_m3。

模型参数参考**“模型列表”**

field_type 可选值

字段类型	可用索引类型	default_val默认值	数据写入时取值范围	default_val 取值范围	可为主键	说明
int64	范围	0	int64 范围	int64 范围	是	整数
float32	范围	0.0	float32 范围	float32 范围	否	浮点数
string	枚举	"default"	--	长度<=128	是	字符串
bool	枚举	false	true/false	true/false	否	布尔类型
list<string>	枚举	["default"]	List 长度<=32	List 长度<=32	否	字符串数组
list<int64>	枚举	[0]	List 长度<=32	List 长度<=32	否	整数数组
vector	向量	--	维度 4-2048	--	否	稠密向量。 field_type 设置为 vector 时必选参数 dim。
sparse_vector	稀疏向量	--	非零元下标无限制非零元值为 float32 范围	--	否	稀疏向量。 sparse_vector不能单独设置，必须与 vector 字段组合设置。接收形为<index,value>的json字典列表，来表示稀疏稀疏向量的关键词及其对应的权重值。示例： sparse_vector={"什么": 0.34, "是": 0.03, "B": 0.11, "M":0.32, "25": 0.03}
text	--	--	--	--	否	文本，可用于向量化
image	--	--	--	--	否	当前支持写入tos路径。格式为：`tos://{bucket}/{object_key}`。图片，可用于向量化。

注意

field_type 设置为 text、image 时可选参数 pipeline_name。
当定义字段 fields 添加了带 pipeline_name 的 text 字段，则不允许添加 vector 字段或 sparse_vector 字段，有一个带 pipeline_name 的 text 字段只能有各一个；当定义字段 fields 添加了不带 pipeline_name 的 text 字段，则允许添加 vector 和 sparse_vector 字段，且允许添加多个不带 pipeline_name 的 text 字段，字段最多200个。

向量化参数

参数名	类型	必选	默认值	备注
text_field	string	否	/	待向量化的文本字段
image_field	string	否	/	待向量化的图片字段
model_name	string	是	/	模型名称。对应下面“模型列表”的模型名称。
model_version	string	否	/	模型版本。如果某模型有多个版本，可指定具体版本。如果使用默认版本模型或该模型没有多版本，则无需填写该字段。
dim	int	否	/	如果需要生成稠密向量，指定向量维度。默认使用模型默认的维度。

注意

text_field 和 image_field 的设置，与 model 的选择需要对应。例如，model_name 选择了纯文本 embedding 模型，则不允许有 image_field。

模型列表

模型名称	支持向量化类型	简介	默认稠密向量维度	可选稠密向量维度	支持稀疏向量	need instruction	默认版本	可选版本
doubao-embedding	text	字节自研的轻量 Doubao 向量化模型，输出稠密向量，适配大多数检索场景，向量化速度更快	2048	512, 1024, 2048	否	是	240515	240515、240715
doubao-embedding-large	text	采用能力更强的 Doubao 语言模型为基座，输出稠密向量，适合对检索精度有较高要求且时间不敏感的场景	2048	512, 1024, 2048, 4096	否	是	240915	240915
doubao-embedding-vision	text、text_image、image 说明在纯图场景下也会有额外的少量文本token消耗（20tokens左右）	字节自研的图文多模态向量化模型，主要面向图文多模向量检索的使用场景，支持图片输入及中、英双语文本输入，最长 8K 上下文长度。	3072	3072	否	是	241215	241215
bge-large-zh	text	仅支持中文，输出1024维度的稠密向量，适用于短文本	1024	1024	否	否
bge-m3	text	支持 100 多种语言及跨语言向量化能力，可输出稠密向量和稀疏向量，适配长文本多语言场景	1024	1024	是	否
bge-visualized-m3	text、text_image、image	可对文本或图片进行单独编码，或者对文本图片对联合编码，输出1024维度的稠密向量	1024	1024	否	否

响应消息

参数	参数说明
code	状态码
message	返回信息
request_id	标识每个请求的唯一标识符

状态码说明

状态码	http状态码	返回信息	状态码说明
0	200	success	创建 Collection 执行成功。
1000004	400	collection exist	Collection 已存在。
1000003	400	invalid request：%s	非法参数：缺失必选参数。 Collection 命名不符合规范。字段类型与相关字段属性不满足约束条件。
1000001	401	unauthorized	请求头中缺乏鉴权信息。
1000002	403	no permission	权限不足。

完整示例

请求消息

创建带有稠密向量、稀疏向量字段和标量字段的 Collection 为例：

curl -i -X POST \
  -H 'Content-Type: application/json' \
  -H 'Authorization: HMAC-SHA256***' \
  https://api-vikingdb.volces.com/api/collection/create \
  -d '{
    "collection_name": "test_name",
    "description": "test dataset",
    "primary_key": "id",            
    "fields": [                               
        {
            "field_name": "id",       
            "field_type": "int64"
        },
        {
            "field_name": "text",                     
            "field_type": "string", 
            "default_val": ""
        },
        {
            "field_name": "vector_field",
            "field_type": "vector",      
            "dim": 768
        },
        {
            "field_name": "sparse_vector_field",
            "field_type": "sparse_vector"
        },
        {
            "field_name": "time",
            "field_type": "int64",       
            "default_val": 0
        },
        {
            "field_name": "author",
            "field_type": "string",      
            "default_val": "null"
        },
    ]
}'

创建带有文本字段的 Collection 为例：

curl -i -X POST \
  -H 'Content-Type: application/json' \
  -H 'Authorization: HMAC-SHA256***' \
  https://api-vikingdb.volces.com/api/collection/create \
  -d '{
        "collection_name": "test_raw_data_collection",
        "description": "test_raw_data_collection",
        "primary_key": "id",  
        "fields": [{
                "field_name": "id",
                "field_type": "int64",
                "default_val": 0
        }, {
                "field_name": "gap",
                "field_type": "float32",
                "default_val": 3.1
        }, {
                "field_name": "content",
                "field_type": "text",
        }],
        "vectorize":[{
            "dense": {
                "text_field": "content", 
                "model_name": "doubao-embedding-large",
                "dim": 2048
            },
            "sparse": {
                "text_field": "content",
                "model_name": "bge_m3"
            }
        }]
    }'

响应消息

执行成功返回：

HTTP/1.1 200 OK
Content-Length: 43
Content-Type: application/json
 
{"code":0,"message":"success","request_id":"021695029537650fd001de666660000000000000000000230da93"}

执行失败返回：

HTTP/1.1 400 OK
Content-Length: 43
Content-Type: application/json
 
{"code":1000004,"message":"collection exist","request_id":"021695029537650fd001de666660000000000000000000230da93"}