图文向量化 API--火山方舟大模型服务平台-火山引擎

文档中心

导航

图文向量化 API

最近更新时间：2025.03.13 20:51:29首次发布时间：2025.01.15 20:28:15

POST https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal

Doubao-embedding-vision 图文向量化模型是一款字节跳动研发的图文向量化模型，是一种支持文本、图片及图文混合输入的向量化技术，适用于文搜图、图搜图、图文混合搜索等场景。

调试

API Explorer

您可以通过 API Explorer 在线发起调用，无需关注签名生成过程，快速获取调用结果。

去调试

鉴权

本接口支持 API Key 鉴权方式，详见鉴权认证方式。

使用限制

输入数量限制

图文向量化 API 单次请求仅支持单一文本、单张图片或文本与图片的组合输入（即一段文本 + 一张图片），暂不支持批量文本 / 图片的同时处理。

图片格式说明

支持的图片格式如下表，需注意文件后缀和图片格式需要匹配，即图片文件扩展名（URL 传入）、编码中图片格式声明（Base64 编码传入）需要与图片实际信息一致。

图片格式	文件扩展名	内容格式 Content Type 上传图片至对象存储。或传入图片 Base64 编码使用。
JPEG	.jpg, .jpeg	`image/jpeg`
PNG	.apng, .png	`image/png`
GIF	.gif	`image/gif`
WEBP	.webp	`image/webp`
BMP	.bmp	`image/bmp`
TIFF	.tiff, .tif	`image/tiff`
ICO	.ico	`image/x-icon`
DIB	.dib	`image/bmp`
ICNS	.icns	`image/icns`
SGI	.sgi	`image/sgi`
JPEG2000	.j2c, .j2k, .jp2, .jpc, .jpf, .jpx	`image/jp2`

说明

TIFF、 SGI、ICNS、JPEG2000 几种格式图片，需要保证和元数据对齐如在对象存储中正确设置文件元数据，否则会解析失败。

图片尺寸说明

图片尺寸需要同时满足以下条件，否则会返回错误信息InvalidImageURL(****) 。

图片的宽和高的长度取值范围：[10, 6000] px。
图片的宽高比（即宽/高）取值范围：[1/100, 100]。

例如：当图片宽高的长度为798 px、7000 px，图片高的长度大于6000 px，则会返回错误信息InvalidImageURL('height or width exceed max_total_pixels, 798 or 7000 > 6000') 。

请求参数

请求体

参数名称	类型	是否必填	描述	示例值	默认值
model	String	是	本次请求使用模型的 Model ID，或者使用已配置的向量化模型的推理接入点 (Endpoint ID)。	doubao-embedding-vision-241215 或 ep-202406040***-***	-
input	Array of Input	是	需要向量化的内容列表。注意： type 可为`text`、`image_url`，且每种类型最多1个。注意在处理不同类型的输入内容（包括纯文本、纯图片以及图文混排）时，系统会生成一定数量的文本 tokens（约 20 个）以辅助模型完成推理任务。	参见 Input	-
encoding_format	String	否	embedding 返回的格式，可为 `float`或`base64`。	float	float

参数名称

类型

是否必填

描述

示例值

默认值

model

String

是

本次请求使用模型的 Model ID，或者使用已配置的向量化模型的推理接入点 (Endpoint ID)。

doubao-embedding-vision-241215
或
ep-202406040*****-*****

input

Array of Input

是

需要向量化的内容列表。注意：

type 可为text、image_url，且每种类型最多1个。

注意

在处理不同类型的输入内容（包括纯文本、纯图片以及图文混排）时，系统会生成一定数量的文本 tokens（约 20 个）以辅助模型完成推理任务。

参见 Input

encoding_format

String

否

embedding 返回的格式，可为 float或base64。

float

数据结构

Input

参数名称	类型	是否必填	描述	示例值
type	String	是	支持`text` 或 `image_url`，传入的信息类型。传入信息为文本信息设置为`text`。传入信息为图片信息设置为`image_url`。	-
text	String	条件必填	当`type`设置为`text`时，输入文本信息。单条文本以 utf-8 编码，长度不超过 100,000 字节。单条文本不超过模型的最大输入 token 数为 8k。	`"input":[ { "type":"text", "text":"海很深" }, ],//文`
image_url	Object	-	当`type`设置为`image_url`时，输入一个图片信息。 url [String]：必选，支持传入图片URL或图片Base64编码。传入图片URL：需确保图片URL可被访问。传入Base64编码：请遵循格式`data:image/{图片格式};base64,{Base64编码}`： `{图片格式}`：支持多种格式，参见下面的图片要求。 `{Base64编码}`：图片的Base64编码。图片要求：格式：支持多种格式，具体请参见图片格式说明。尺寸：具体请参见图片尺寸说明。大小：单图最大 10 MB。	`"input":[ { "type":"image_url", "image_url":{ "url":"https://*.**./**.jpeg" } } ]//图`

参数名称

类型

是否必填

描述

示例值

type

String

是

支持text 或 image_url，传入的信息类型。

传入信息为文本信息设置为text。
传入信息为图片信息设置为image_url。

text

String

条件必填

当type设置为text时，输入文本信息。

单条文本以 utf-8 编码，长度不超过 100,000 字节。
单条文本不超过模型的最大输入 token 数为 8k。

"input":[
    {
        "type":"text",
        "text":"海很深"
     },
   ],//文

image_url

Object

当type设置为image_url时，输入一个图片信息。

url [String]：必选，支持传入图片URL或图片Base64编码。
- 传入图片URL：需确保图片URL可被访问。
- 传入Base64编码：请遵循格式data:image/{图片格式};base64,{Base64编码}：
  - {图片格式}：支持多种格式，参见下面的图片要求。
  - {Base64编码}：图片的Base64编码。
- 图片要求：
  - 格式：支持多种格式，具体请参见图片格式说明。
  - 尺寸：具体请参见图片尺寸说明。
  - 大小：单图最大 10 MB。

"input":[
    {
        "type":"image_url",
        "image_url":{
            "url":"https://***.******.***/***.jpeg"
         }
     }
   ]//图

响应参数

请求响应

参数名称	类型	描述	示例值
id	String	本次请求的唯一标识	021718049470528d92fcbe0865fdffdde********************
model	String	本次请求实际使用的模型名称和版本	doubao-embedding-text-240515
created	Integer	本次请求创建时间的 Unix 时间戳（秒）	1718049470
object	String	固定为 `list`	list
data	Embedding	本次请求的算法输出内容	-
usage	Usage	本次请求的 tokens 用量	-

数据结构

Embedding

参数名称	类型	描述	示例值
embedding	Array of Float	对应内容的向量化结果	[0.62109375,-0.69140625,...,0.38671875]
object	String	固定为 `embedding`	embedding

Usage

参数名称	子字段	类型	描述	示例值
prompt_tokens	-	Integer	输入的 prompt token 数量	2670
total_tokens	-	Integer	本次请求消耗的总 token 数量（输入 + 输出）	2670
prompt_tokens_details			输入的 prompt token使用情况的细节信息	-
	text_tokens	Integer	输入的 prompt token中用于文本的token数量说明为保证模型效果，当图片传入时，系统会生成少量的预设 text_tokens，可能会产生额外的 text_tokens 用量	1024
	image_tokens	Integer	输入的 prompt token中用于图片的token数量	1646

请求示例

curl https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ea764f0f-3b60-45b3-****-************" \
  -d '{
    "model": "doubao-embedding-vision-241215",
    "input": [
        {
            "type":"text",
            "text":"天很蓝，海很深"
        },
        {    
            "type":"image_url",
            "image_url":{
                "url":"https://ark-project.tos-cn-beijing.volces.com/images/view.jpeg"
            }
        }
      ]
}'

响应示例

{
    "id": "021718067849899d92fcbe0865fdffdde********************",
    "created": 171806****,
    "object": "list",
    "model": "doubao-embedding-***-******",
    "data": {
            "object": "embedding",
            "embedding": [[0.62109375,-0.69140625,...,0.38671875]
    },
    "usage": {
        "prompt_tokens": 1340,
        "total_tokens": 1340,
        "prompt_tokens_details": {
            "text_tokens": 1312,
            "image_tokens": 28
        }
    }
}

错误处理

错误响应

本接口调用失败的返回结构和参数释义请参见返回结构文档。

错误码

本接口错误码请参见公共错误码文档。