You need to enable JavaScript to run this app.
导航
创建推理接入点(Endpoint)
最近更新时间:2025.01.13 16:33:22首次发布时间:2023.06.27 23:50:08

使用 API/SDK 调用大模型进行推理前,您需要创建一个推理接入点。您可以根据需要,配置推理接入点使用的大模型及其版本、限流、计费类型(前付费/后付费)、运行状态、调用监控等等,提供更加灵活地管理方案。

什么是推理接入点(Endpoint)

推理接入点是方舟推出基于模型及其配置抽象的概念,您在模型调用时需要填入推理接入点的ID。

import os
from volcenginesdkarkruntime import Ark
# 从环境变量中读取您的方舟API Key
client = Ark(api_key=os.environ.get("<YOUR_API_KEY>"))
completion = client.chat.completions.create(
    # 替换 <YOUR_ENDPOINT_ID> 为您的方舟推理接入点 ID
    model="<YOUR_ENDPOINT_ID>",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)
print(completion.choices[0].message)

通过推理接入点,您可以对模型服务进行灵活控制、精细监控、安全加固、风险防护等操作,获得更贴合业务、更加安全的模型服务。

  • 灵活控制服务调用,按需变更服务启停状态、模型版本、服务限流、关联的智能体、资源包等配置。
  • 监控服务调用指标,如性能延时、调用错误率、接口调用速率、token使用速率等指标。
  • 监控服务风险,如沙箱的异常连接、登陆及非法命令执行等。
  • 为服务进行安全加固,如HTTPS、mTLS加密传输,保障会话数据安全。

完全的能力控制可在方舟控制台-在线推理 > 推理接入点详情页查看。

操作步骤

  1. 访问方舟控制台-在线推理
  2. 点击页面上方 账号全部资源 下拉箭头,切换需要创建推理接入点的项目空间。
  3. 单击 创建推理接入点 按钮,在打开的页面中选择推理接入点配置。

配置参数说明

模型推理接入点配置参数字段详细说明如下:

配置项

子配置项

配置说明

接入点名称

-

必填,填写接入点名称。

接入点描述

-

选填,描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等。

接入模型

-

必填,可选择 模型广场模型仓库 中的模型进行接入:

  • 模型广场:模型为基础模型,需进一步选择模型版本。
  • 模型仓库:模型为精调模型,需进一步选择模型版本。

当前精调模型仅支持基于豆包系列模型。

购买方式

-

必填,计费方式支持使用 按Token付费按模型单元付费

  • 按Token付费:是指大模型处理内容转化为 Tokens,并 按照Tokens 数量计费,包括提交给模型处理的内容,以及模型输出的内容。换算工具请参见在线体验工具

按Token付费

TPM保障包

选填,提升账号下该模型推理接入点的限流。TPM保障包 为单个接入点提升限流,降低延时。保障包内限流不包含在账号下模型总限流中,单个接入点超出保障包额度外的流量将与账号下所有接入点共享限流额度。详细介绍请参见TPM保障包

计费类型

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的计费方式,包括 后付费预付费 :

  • 后付费:按量计费,使用灵活,适合短期或者服务请求波动较大的场景。
  • 预付费:提前购买,价格较为优惠,适合长期或者服务请求相对稳定的场景。

购买额度

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的额度,请根据界面提示进行选择。

购买时长

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的购买时长。

自动续费

可选,推荐您进行选择,保障服务持续可用。

单次自动续费时长

条件必填,当启用了 TPM保障包 自动续费时,需要填写。触发自动续费时,为您自动购买的TPM保障包时长。

自动续费次数

条件必选,当启用了 TPM保障包 自动续费时,需要选择。默认为永久生效,您可以根据业务填写自定义次数。

按模型单元付费

计费类型

条件必填,当选择了 按模型单元付费 ,需要选择计费类型。

  • 后付费:按照模型单元运行时长付费,适合模型推理服务波动较大或者无法预测的场景,使用更加灵活。

说明

购买后付费模型单元的前提是账号中的余额大于 100 元,否则无法成功下单。

  • 预付费:按月预留资源,提供更优惠价格,适合模型推理服务波动较小,可预测的场景。
  • 组合使用:预付费模型单元和后付费模型单元叠加使用在推理接入点。创建推理接入点时只能选择 1 种计费类型,操作叠加购买多种模型单元,需要创建完成推理接入点后,在推理接入点详情页进行配置。

说明

如下图所示,日常有基础访问次数以及在某时间段有高峰期的时段,可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格;再通过购买灵活变动的后付费模型单元,来应对高峰期的超出基础次数的模型服务请求。

购买时长

条件必填,当选择了 预付费 ,需要选择模型单元购买时长,即模型单元包月的时长。

自动续费

选填,费用到期后,是否自动续费。

说明

推荐您开通自动续费,可避免续费不及时导致业务中断。

单次自动续费时长

条件必填,当开启了自动续费,需要配置每次触发自动续费时,下个模型单元包月的时长。

自动续费次数

条件必填,当开启了自动续费,需要配置自动续费执行的次数。

接入点限流

-

选填,服务接入点是否限流。

RPM

条件必填,当开启了接入点限流需要配置 RPM(Requests Per Minute)分钟处理请求数。

TPM

条件必填,当开启了接入点限流需要配置 TPM(Tokens Per Minute)分钟处理 tokens 数。

说明

如模型单元购买失败,平台将为您在两小时内完成退款。

TPM保障包

什么是 TPM 保障包

TPM 保障包 是针对某个特定模型以及版本保障请求并发达到一定 TPM( Tokens per Minute)的计费模式。

  • 更低的延迟:相比单纯的按Token计费,购买保障包后,延迟更低。
  • 更高的并发:支持超过默认限流额度的并发。如对 Doubao-pro-32k 来说,通过 购买TPM 保障包可以获得超过 100w TPM 的并发。
  • 更强稳定性:提供高资源确定性保障,提供资源的刚性保障,在保障范畴内不会命中异常流量熔断、限速策略,持续保障业务服务可用性。

除此之外, TPM保障包还具备以下特性:

  • 超过保障包部分流量默认 按Token付费 ,超过部分流量计算在默认限流额度中。
  • 保障包支持按小时和按天付费,您可以在业务高峰时叠加按小时计费的保障包和按天的保障包,贴合流量波峰波谷,避免资源浪费。

典型场景

  • 对高流量业务提供资源保障,适合大流量、可预估流量大小,生产级高 SLA 要求的场景。
  • 希望请求延时更低的线上业务。

支持的模型

当前支持 Doubao-pro-32k 240828 和 Doubao-pro-32k 241215 两个版本模型。

未来会支持视觉理解模型,更多模型版本,如明确需求,可提交工单申请。

工作机制

它绑定推理接入点,可以为单个接入点提升限流。保障包内限流不包含在账号下模型总限流中,单个接入点超出保障包额度外的流量将与账号下所有接入点共享限流额度。
举例说明:
当前账号下的模型的服务限流 100k TPM,A、B 2 个推理接入点的服务流量分别为 80k TPM,50k TPM。那么您可为 A 推理接入点购买 TPM保障包

业务预估流量 - 默认服务限流
= 80 + 50 - 100 
= 30 k TPM

其中,A 推理接入点业务流量:

  • 30k TPM 使用购买 TPM保障包 带来的额外流量配额。
  • 50k TPM 使用默认限流的份额。

使用说明

TPM保障包支持叠加购买,可以在创建推理接入点购买。也可以在接入点详情页进行购买、续费、退订等操作。
当前保障包可以为输入、输出分别购买 TPM 保障包,业务需求总量除以最小TPM保障包,即您需要购买的数量。

  • 当前 TPM保障包 需加入白名单才可购买,可通过工单申请。
  • 如果业务对于延时有需求,请通过工单提需求。

计费说明

单价请参见TPM 保障包

TPM保障包配置参数

配置名称

配置说明

计费类型

条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的计费方式,包括 后付费预付费

  • 后付费:按量计费,使用灵活,适合短期或者服务请求波动较大的场景。
  • 预付费:提前购买,价格较为优惠,适合长期或者服务请求相对稳定的场景。

购买额度

条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的额度,请根据界面提示进行选择。

购买时长

条件必填,当启用了 TPM保障包时,需要选择。TPM保障包的购买时长。

自动续费

可选,推荐您进行选择,保障服务持续可用。

单次自动续费时长

条件必填,当启用了 TPM保障包自动续费时,需要填写。触发自动续费时,为您自动购买的TPM保障包时长。

自动续费次数

条件必选,当启用了 TPM保障包自动续费时,需要选择。默认为永久生效,您可以根据业务填写自定义次数。

常见问题

模型单元

什么是模型单元

模型单元是调用某个特定模型的 TPM(Token per Minute,单位时间 token 的使用量)配额。选择购买模型单元,通常可以获得更大的模型服务调用的并发量,使用量的计算单位也会从 token 使用量,变为模型单元的使用时长。

使用场景

集中典型的应用场景如下:

  • 线上生产业务,对资源确定性要求高,希望在流量峰值必须保障资源。
  • 模型经过 LoRA 精调后,在推理时获得更低延迟。
  • 模型经过全量精调后,在推理时获得更低延迟。
  • 实际业务并发高,TPM、RPM(Request per Minute,单位时间请求量)超过方舟平台默认的限定值。

支持的模型

Doubao 系列模型与部分开源模型支持模型单元,支持范围请参见产品计费

使用说明

目前支持在 创建推理接入点 购买模型单元,可以配置购买模型单元的数量、时长、是否自动续费等,详细请参见配置参数说明

  • 火山方舟于 2024 年 9 月对模型单元的产品形态进行了调整,新的模型单元为用户提供独占的算力资源,更加独立可控。同时支持按月售卖和按小时售卖两种模式,两种模式可以叠加购买,方便用户依据自己的流量灵活采购。模型单元当前支持白名单购买,如需购买新的模型单元,请提交工单联系我们。
  • 原有模型单元依然可以续费或退费,如您对原有模型单元的使用还有其他需求,也请提交工单联系我们。
  • 模型单元为您选择的模型提供了一定量的算力,您可以联系平台获取相应算力可承载的并发能力,更建议您通过实际业务流量压测,准确判断需要的模型单元数量。
  • 模型单元预计可承载性能(Tokens Per Second,TPS)是按照输入:输出 = 10:1 的数据压测得到。实际用户的输入输出比例对性能的影响较大,建议您通过实际业务流量压测,准确判断需要的模型单元数量。
  • Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低。