You need to enable JavaScript to run this app.
导航
DoubaoEmbeddingVision-图文向量化
最近更新时间:2025.01.22 11:38:56首次发布时间:2025.01.15 20:28:15
POST https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal

Doubao-embedding-vision 图文向量化模型是一款字节跳动研发的图文向量化模型,是一种支持文本、图片及图文混合输入的向量化技术,适用于文搜图、图搜图、图文混合搜索等场景。

鉴权方式

本接口支持 API Key 鉴权方式,详见鉴权认证方式

使用限制

图片格式说明

支持的图片格式如下表,需注意文件后缀和图片格式需要匹配,即图片文件扩展名(URL 传入)、编码中图片格式声明(Base64 编码传入)需要与图片实际信息一致。

图片格式

文件扩展名

内容格式 Content Type

JPEG

.jpg, .jpeg

image/jpeg

PNG

.apng, .png

image/png

GIF

.gif

image/gif

WEBP

.webp

image/webp

BMP

.bmp

image/bmp

TIFF

.tiff, .tif

image/tiff

ICO

.ico

image/x-icon

DIB

.dib

image/bmp

ICNS

.icns

image/icns

SGI

.sgi

image/sgi

JPEG2000

.j2c, .j2k, .jp2, .jpc, .jpf, .jpx

image/jp2

说明

TIFF、 SGI、ICNS、JPEG2000 几种格式图片,需要保证和元数据对齐如在对象存储中正确设置文件元数据,否则会解析失败。

图片尺寸说明

图片尺寸需要同时满足以下条件,否则会返回错误信息InvalidImageURL(****)

  • 图片的宽和高的长度取值范围:[10, 6000] px。
  • 图片的宽高比(即宽/高)取值范围:[1/100, 100]。

例如:当图片宽高的长度为798 px、7000 px,图片高的长度大于6000 px,则会返回错误信息InvalidImageURL('height or width exceed max_total_pixels, 798 or 7000 > 6000')

请求参数

请求体

参数名称

类型

是否必填

描述

示例值

默认值

model

String

向量化模型的推理接入点 的ID。

ep-202406040*****-*****

input

Array of Input

需要向量化的内容列表。注意:

  • type 可为textimage_url,且每种类型最多1个

参见 Input

encoding_format

String

embedding 返回的格式,可为 floatbase64

float

float

数据结构

Input

参数名称

类型

是否必填

描述

示例值

type

String

支持textimage_url,传入的信息类型。

  • 传入信息为文本信息设置为text
  • 传入信息为图片信息设置为image_url

text

String

条件必填

tpye设置为text时,输入文本信息。

  • 单条文本以 utf-8 编码,长度不超过 100,000 字节。
  • 单条文本不超过模型的最大输入 token 数为 8k。
"input":[
    {
        "type":"text",
        "text":"海很深"
     },
   ],//文

image_url

Object

tpye设置为image_url时,输入图片信息。

  • url [String]:必选,支持传入图片URL或图片Base64编码。
    • 传入图片URL:需确保图片URL可被访问。
    • 传入Base64编码:请遵循格式data:image/{图片格式};base64,{Base64编码}
      • {图片格式}:支持多种格式,参见下面的图片要求
      • {Base64编码}:图片的Base64编码。
    • 图片要求
"input":[
    {
        "type":"image_url",
        "image_url":{
            "url":"https://***.******.***/***.jpeg"
         }
     }
   ]//图

响应参数

请求响应

参数名称

类型

描述

示例值

id

String

本次请求的唯一标识

021718049470528d92fcbe0865fdffdde********************

model

String

本次请求实际使用的模型名称和版本

doubao-embedding-text-240515

created

Integer

本次请求创建时间的 Unix 时间戳(秒)

1718049470

object

String

固定为 list

list

data

Embedding

本次请求的算法输出内容

usage

Usage

本次请求的 tokens 用量

数据结构

Embedding

参数名称

类型

描述

示例值

embedding

Array

对应内容的向量化结果

[0.62109375,-0.69140625,...,0.38671875]

object

String

固定为 embedding

embedding

Usage

参数名称

子字段

类型

描述

示例值

prompt_tokens

-

Integer

输入的 prompt token 数量

2670

total_tokens

-

Integer

本次请求消耗的总 token 数量(输入 + 输出)

2670

prompt_tokens_details

输入的 prompt token使用情况的细节信息

text_tokens

Integer

输入的 prompt token中用于文本的token数量

说明

为保证模型效果,当图片传入时,系统会生成少量的预设 text_tokens,可能会产生额外的 text_tokens 用量

1024

image_tokens

Integer

输入的 prompt token中用于图片的token数量

1646

请求示例
curl https://ark.cn-beijing.volces.com/api/v3/embeddings/multimodal \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ea764f0f-3b60-45b3-****-************" \
  -d '{
    "model": "ep-202406040*****-*****",
    "input": [
        {
            "type":"text",
            "text":"绚烂的夜空"
        },
        {    
            "type":"image_url",
            "image_url":{
                "url":"https://portal.volccdn.com/obj/volcfe/bee_prod/biz_950/tos_6535f5772fa7bed516414fd77006003f.jpeg"
            }
        }
      ]
}'

响应示例
{
    "id": "021718067849899d92fcbe0865fdffdde********************",
    "created": 171806****,
    "object": "list",
    "model": "doubao-embedding-***-******",
    "data": [
        {
            "object": "embedding",
            "embedding": [[0.62109375,-0.69140625,...,0.38671875]
        }
    ],
    "usage": {
        "prompt_tokens": 1340,
        "total_tokens": 1340,
        "prompt_tokens_details": {
            "text_tokens": 1312,
            "image_tokens": 28
        }
    }
}

错误处理

错误响应

本接口调用失败的返回结构和参数释义请参见返回结构文档。

错误码

本接口错误码请参见公共错误码文档。