使用 API/SDK 调用大模型进行推理前,您需要创建一个推理接入点。您可以根据需要,配置推理接入点使用的大模型及其版本、限流、计费类型(前付费/后付费)、运行状态、调用监控等等,提供更加灵活地管理方案。
推理接入点是方舟推出基于模型及其配置抽象的概念,您在模型调用时需要填入推理接入点的ID。
import os from volcenginesdkarkruntime import Ark # 从环境变量中读取您的方舟API Key client = Ark(api_key=os.environ.get("<YOUR_API_KEY>")) completion = client.chat.completions.create( # 替换 <YOUR_ENDPOINT_ID> 为您的方舟推理接入点 ID model="<YOUR_ENDPOINT_ID>", messages=[ {"role": "user", "content": "你好"} ] ) print(completion.choices[0].message)
通过推理接入点,您可以对模型服务进行灵活控制、精细监控、安全加固、风险防护等操作,获得更贴合业务、更加安全的模型服务。
完全的能力控制可在方舟控制台-在线推理 > 推理接入点详情页查看。
模型推理接入点配置参数字段详细说明如下:
配置项 | 子配置项 | 配置说明 |
---|---|---|
接入点名称 | - | 必填,填写接入点名称。 |
接入点描述 | - | 选填,描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等。 |
接入模型 | - | 必填,可选择 模型广场 或 模型仓库 中的模型进行接入:
|
购买方式 | - | 必填,计费方式支持使用 按Token付费、按模型单元付费。
|
按Token付费 | TPM保障包 | 选填,提升账号下该模型推理接入点的限流。TPM保障包 为单个接入点提升限流,降低延时。保障包内限流不包含在账号下模型总限流中,单个接入点超出保障包额度外的流量将与账号下所有接入点共享限流额度。详细介绍请参见TPM保障包。 |
计费类型 | 条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的计费方式,包括 后付费 , 预付费 :
| |
购买额度 | 条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的额度,请根据界面提示进行选择。 | |
购买时长 | 条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的购买时长。 | |
自动续费 | 可选,推荐您进行选择,保障服务持续可用。 | |
单次自动续费时长 | 条件必填,当启用了 TPM保障包 自动续费时,需要填写。触发自动续费时,为您自动购买的TPM保障包时长。 | |
自动续费次数 | 条件必选,当启用了 TPM保障包 自动续费时,需要选择。默认为永久生效,您可以根据业务填写自定义次数。 | |
按模型单元付费 | 计费类型 | 条件必填,当选择了 按模型单元付费 ,需要选择计费类型。
说明 购买后付费模型单元的前提是账号中的余额大于 100 元,否则无法成功下单。
说明 如下图所示,日常有基础访问次数以及在某时间段有高峰期的时段,可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格;再通过购买灵活变动的后付费模型单元,来应对高峰期的超出基础次数的模型服务请求。 |
购买时长 | 条件必填,当选择了 预付费 ,需要选择模型单元购买时长,即模型单元包月的时长。 | |
自动续费 | 选填,费用到期后,是否自动续费。 说明 推荐您开通自动续费,可避免续费不及时导致业务中断。 | |
单次自动续费时长 | 条件必填,当开启了自动续费,需要配置每次触发自动续费时,下个模型单元包月的时长。 | |
自动续费次数 | 条件必填,当开启了自动续费,需要配置自动续费执行的次数。 | |
接入点限流 | - | 选填,服务接入点是否限流。 |
RPM | 条件必填,当开启了接入点限流需要配置 RPM(Requests Per Minute)分钟处理请求数。 | |
TPM | 条件必填,当开启了接入点限流需要配置 TPM(Tokens Per Minute)分钟处理 tokens 数。 |
说明
如模型单元购买失败,平台将为您在两小时内完成退款。
TPM 保障包 是针对某个特定模型以及版本保障请求并发达到一定 TPM( Tokens per Minute)的计费模式。
除此之外, TPM保障包还具备以下特性:
当前支持 Doubao-pro-32k 240828 和 Doubao-pro-32k 241215 两个版本模型。
未来会支持视觉理解模型,更多模型版本,如明确需求,可提交工单申请。
它绑定推理接入点,可以为单个接入点提升限流。保障包内限流不包含在账号下模型总限流中,单个接入点超出保障包额度外的流量将与账号下所有接入点共享限流额度。
举例说明:
当前账号下的模型的服务限流 100k TPM,A、B 2 个推理接入点的服务流量分别为 80k TPM,50k TPM。那么您可为 A 推理接入点购买 TPM保障包。
业务预估流量 - 默认服务限流 = 80 + 50 - 100 = 30 k TPM
其中,A 推理接入点业务流量:
TPM保障包支持叠加购买,可以在创建推理接入点购买。也可以在接入点详情页进行购买、续费、退订等操作。
当前保障包可以为输入、输出分别购买 TPM 保障包,业务需求总量除以最小TPM保障包,即您需要购买的数量。
单价请参见TPM 保障包。
配置名称 | 配置说明 |
---|---|
计费类型 | 条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的计费方式,包括 后付费,预付费:
|
购买额度 | 条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的额度,请根据界面提示进行选择。 |
购买时长 | 条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的购买时长。 |
自动续费 | 可选,推荐您进行选择,保障服务持续可用。 |
单次自动续费时长 | 条件必填,当启用了 TPM保障包自动续费时,需要填写。触发自动续费时,为您自动购买的TPM保障包时长。 |
自动续费次数 | 条件必选,当启用了 TPM保障包自动续费时,需要选择。默认为永久生效,您可以根据业务填写自定义次数。 |
模型单元是调用某个特定模型的 TPM(Token per Minute,单位时间 token 的使用量)配额。选择购买模型单元,通常可以获得更大的模型服务调用的并发量,使用量的计算单位也会从 token 使用量,变为模型单元的使用时长。
集中典型的应用场景如下:
Doubao 系列模型与部分开源模型支持模型单元,支持范围请参见产品计费。
目前支持在 创建推理接入点 购买模型单元,可以配置购买模型单元的数量、时长、是否自动续费等,详细请参见配置参数说明。