POST https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal
Doubao-embedding-vision 图文向量化模型是一款字节跳动研发的图文向量化模型,是一种支持文本、图片及图文混合输入的向量化技术,适用于文搜图、图搜图、图文混合搜索等场景。
本接口支持 API Key 鉴权方式,详见鉴权认证方式。
支持的图片格式如下表,需注意文件后缀和图片格式需要匹配,即图片文件扩展名(URL 传入)、编码中图片格式声明(Base64 编码传入)需要与图片实际信息一致。
图片格式 | 文件扩展名 | 内容格式 Content Type
|
---|---|---|
JPEG | .jpg, .jpeg |
|
PNG | .apng, .png |
|
GIF | .gif |
|
WEBP | .webp |
|
BMP | .bmp |
|
TIFF | .tiff, .tif |
|
ICO | .ico |
|
DIB | .dib |
|
ICNS | .icns |
|
SGI | .sgi |
|
JPEG2000 | .j2c, .j2k, .jp2, .jpc, .jpf, .jpx |
|
说明
TIFF、 SGI、ICNS、JPEG2000 几种格式图片,需要保证和元数据对齐如在对象存储中正确设置文件元数据,否则会解析失败。
图片尺寸需要同时满足以下条件,否则会返回错误信息InvalidImageURL(****)
。
宽/高
)取值范围:[1/100, 100]。例如:当图片宽高的长度为798 px、7000 px,图片高的长度大于6000 px,则会返回错误信息
InvalidImageURL('height or width exceed max_total_pixels, 798 or 7000 > 6000')
。
参数名称 | 类型 | 是否必填 | 描述 | 示例值 | 默认值 |
---|---|---|---|---|---|
model | String | 是 | 向量化模型的推理接入点 的ID。 | ep-202406040*****-***** | |
input | Array of Input | 是 | 需要向量化的内容列表。注意:
| 参见 Input | |
encoding_format | String | 否 | embedding 返回的格式,可为 | float | float |
参数名称 | 类型 | 是否必填 | 描述 | 示例值 |
---|---|---|---|---|
type | String | 是 | 支持
| |
text | String | 条件必填 | 当
|
|
image_url | Object | 当 |
|
参数名称 | 类型 | 描述 | 示例值 |
---|---|---|---|
id | String | 本次请求的唯一标识 | 021718049470528d92fcbe0865fdffdde******************** |
model | String | 本次请求实际使用的模型名称和版本 | doubao-embedding-text-240515 |
created | Integer | 本次请求创建时间的 Unix 时间戳(秒) | 1718049470 |
object | String | 固定为 | list |
data | 本次请求的算法输出内容 | ||
usage | 本次请求的 tokens 用量 |
参数名称 | 类型 | 描述 | 示例值 |
---|---|---|---|
embedding | Array | 对应内容的向量化结果 | [0.62109375,-0.69140625,...,0.38671875] |
object | String | 固定为 | embedding |
参数名称 | 子字段 | 类型 | 描述 | 示例值 |
---|---|---|---|---|
prompt_tokens | - | Integer | 输入的 prompt token 数量 | 2670 |
total_tokens | - | Integer | 本次请求消耗的总 token 数量(输入 + 输出) | 2670 |
prompt_tokens_details | 输入的 prompt token使用情况的细节信息 | |||
text_tokens | Integer | 输入的 prompt token中用于文本的token数量 说明 为保证模型效果,当图片传入时,系统会生成少量的预设 text_tokens,可能会产生额外的 text_tokens 用量 | 1024 | |
image_tokens | Integer | 输入的 prompt token中用于图片的token数量 | 1646 |
curl https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal \ -H "Content-Type: application/json" \ -H "Authorization: Bearer ea764f0f-3b60-45b3-****-************" \ -d '{ "model": "ep-202406040*****-*****", "input": [ { "type":"text", "text":"绚烂的夜空" }, { "type":"image_url", "image_url":{ "url":"https://portal.volccdn.com/obj/volcfe/bee_prod/biz_950/tos_6535f5772fa7bed516414fd77006003f.jpeg" } } ] }'
{ "id": "021718067849899d92fcbe0865fdffdde********************", "created": 171806****, "object": "list", "model": "doubao-embedding-***-******", "data": [ { "object": "embedding", "embedding": [[0.62109375,-0.69140625,...,0.38671875] } ], "usage": { "prompt_tokens": 1340, "total_tokens": 1340, "prompt_tokens_details": { "text_tokens": 1312, "image_tokens": 28 } } }
本接口调用失败的返回结构和参数释义请参见返回结构文档。
本接口错误码请参见公共错误码文档。