POST https://ark.cn-beijing.volces.com/api/v3/context/create
创建上下文缓存,获得缓存 id
字段后,在ContextChatCompletions-上下文缓存对话中使用。
API使用教程请参见上下文缓存(Context API)概述。
字段 | 子字段 | 类型 | 是否必填 | 默认值 | 描述 | 示例值 |
---|---|---|---|---|---|---|
model | - | string | 是 | - | 大模型推理服务的接入点ID(Endpoint id)。 |
|
messages | - | list | 是 | - | 由对话组成的消息列表。
| - |
mode | - | string | 是 | session | 上下文缓存的类型,详细见上下文缓存(Context API)概述。 | - |
ttl | - | int | 否 | 86400 | 过期时长,单位为秒。信息在创建后即开始计时,每次使用则重置为0。计时超过ttl,信息会被从缓存中删除。每次调用chat均根据ttl更新过期时间。 | 86400 |
truncation_strategy | - | object | 否 | - | 控制历史上下文窗口。不设置会根据推理接入点调用的模型自动判断使用哪种模式的Session 缓存。
| - |
type | string | 条件必填 | - | 用户截断的策略,对话会综合最近存储的历史token数、模型大小和chat时的
| - | |
last_history_tokens | int | 否 | 4096 |
| - | |
rolling_tokens | boolean | 否 | true |
| - |
字段 | 子字段 | 类型 | 含义 | 示例值 |
---|---|---|---|---|
id | - | string | 您创建的上下文缓存ID,在后续创建带缓存的ContextChatCompletions-上下文缓存对话需要使用。 | ctx-xxx |
model | - | string | 您的推理接入点ID。 | ep-xxx |
ttl | - | int | 不活跃的时间所能达到最大时长,每次使用缓存均重置不活跃时间为0。 | 259200 |
truncation_strategy | - | object | 控制历史上下文窗口策略。 | - |
type | string | 用户截断的策略,支持 | - | |
last_history_tokens | int | 历史存储的最大token数,默认为4096。根据模型上下文大小对历史存储截断。
| 4096 | |
rolling_tokens | boolean | 历史消息长度超过模型上下文时,是否自动对历史上下文进行裁剪
| true | |
usage | - | object | 本次请求的 token 消耗情况。 | - |
curl --location 'https://ark.cn-beijing.volces.com/api/v3/context/create' \ --header 'Authorization: Bearer <YOUR_API_KEY>' \ --header 'Content-Type: application/json' \ --data '{ "model":"<YOUR_ENDPOINT_ID>", "messages":[ {"role":"system","content":"你是李雷,你只会说“我是李雷”"} ], "mode":"session", "ttl":3600, "truncation_strategy":{ "type":"last_history_tokens", "last_history_tokens": 4096 } }'
{ "id": "<YOUR_CONTEXT_ID>", "model": "<YOUR_ENDPOINT_ID>", "ttl": "3600", "mode": "session", "truncation_strategy": { "type": "last_history_token", "last_history_token": 4096 }, "usage": { "prompt_tokens": 18, "completion_tokens": 0, "total_tokens": 18, "prompt_tokens_details": { "cached_tokens": 0 } } }
本接口调用失败的返回结构和参数释义请参见返回结构文档。
本接口错误码请参见公共错误码文档。