You need to enable JavaScript to run this app.
导航
创建推理接入点(Endpoint)
最近更新时间:2024.11.26 20:14:38首次发布时间:2023.06.27 23:50:08

使用 API/SDK 调用大模型进行推理前,您需要创建一个推理接入点。您可以根据需要,配置推理接入点使用的大模型及其版本、限流、计费类型(前付费/后付费)、运行状态、调用监控等等,提供更加灵活地管理方案。

操作步骤

  1. 访问方舟控制台-在线推理
  2. 点击页面上方 账号全部资源 下拉箭头,切换需要创建推理接入点的项目空间。
  3. 单击 创建推理接入点 按钮,在打开的页面中选择推理接入点配置。

配置参数说明

模型推理接入点配置参数字段详细说明如下:

配置项

子配置项

配置说明

接入点名称

-

必填,填写接入点名称。

接入点描述

-

选填,描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等。

接入模型

-

必填,可选择 模型广场模型仓库 中的模型进行接入:

  • 模型广场:模型为基础模型,需进一步选择模型版本。
  • 模型仓库:模型为精调模型,需进一步选择模型版本。

当前精调模型仅支持基于豆包系列模型。

购买方式

-

必填,计费方式支持使用 按Token付费按模型单元付费

  • **按Token付费:**是指大模型处理内容转化为 Tokens,并 按照Tokens 数量计费,包括提交给模型处理的内容,以及模型输出的内容。换算工具请参见在线体验工具

按Token付费

TPM保障包

选填,提升账号下该模型推理接入点的限流。TPM保障包 为单个接入点提升限流。保障包内限流不包含在账号下模型总限流中,单个接入点超出保障包额度外的流量将与账号下所有接入点共享限流额度。

计费类型

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的计费方式,包括 后付费预付费 :

  • **后付费:**按量计费,使用灵活,适合短期或者服务请求波动较大的场景。
  • 预付费:提前购买,价格较为优惠,适合长期或者服务请求相对稳定的场景。

购买额度

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的额度,请根据界面提示进行选择。

购买时长

条件必填,当启用了 TPM保障包 时,需要选择。TPM保障包的购买时长。

自动续费

可选,推荐您进行选择,保障服务持续可用。

单次自动续费时长

条件必填,当启用了 TPM保障包 自动续费时,需要填写。触发自动续费时,为您自动购买的TPM保障包时长。

自动续费次数

条件必选,当启用了 TPM保障包 自动续费时,需要选择。默认为永久生效,您可以根据业务填写自定义次数。

按模型单元付费

计费类型

条件必填,当选择了 按模型单元付费 ,需要选择计费类型。

  • 后付费:按照模型单元运行时长付费,适合模型推理服务波动较大或者无法预测的场景,使用更加灵活。

说明

购买后付费模型单元的前提是账号中的余额大于 100 元,否则无法成功下单。

  • 预付费:按月预留资源,提供更优惠价格,适合模型推理服务波动较小,可预测的场景。
  • 组合使用:预付费模型单元和后付费模型单元叠加使用在推理接入点。创建推理接入点时只能选择 1 种计费类型,操作叠加购买多种模型单元,需要创建完成推理接入点后,在推理接入点详情页进行配置。

说明

如下图所示,日常有基础访问次数以及在某时间段有高峰期的时段,可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格;再通过购买灵活变动的后付费模型单元,来应对高峰期的超出基础次数的模型服务请求。

购买时长

条件必填,当选择了 预付费 ,需要选择模型单元购买时长,即模型单元包月的时长。

自动续费

选填,费用到期后,是否自动续费。

说明

推荐您开通自动续费,可避免续费不及时导致业务中断。

单次自动续费时长

条件必填,当开启了自动续费,需要配置每次触发自动续费时,下个模型单元包月的时长。

自动续费次数

条件必填,当开启了自动续费,需要配置自动续费执行的次数。

接入点限流

-

选填,服务接入点是否限流。

RPM

条件必填,当开启了接入点限流需要配置 RPM(Requests Per Minute)分钟处理请求数。

TPM

条件必填,当开启了接入点限流需要配置 TPM(Tokens Per Minute)分钟处理 tokens 数。

说明

如模型单元购买失败,平台将为您在两小时内完成退款。

模型单元

什么是模型单元

模型单元是调用某个特定模型的 TPM(Token per Minute,单位时间 token 的使用量)配额。选择购买模型单元,通常可以获得更大的模型服务调用的并发量,使用量的计算单位也会从 token 使用量,变为模型单元的使用时长。

使用场景

集中典型的应用场景如下:

  • 线上生产业务,对资源确定性要求高,希望在流量峰值必须保障资源。
  • 模型经过 LoRA 精调后,在推理时获得更低延迟。
  • 模型经过全量精调后,在推理时获得更低延迟。
  • 实际业务并发高,TPM、RPM(Request per Minute,单位时间请求量)超过方舟平台默认的限定值。

支持的模型

Doubao 系列模型与部分开源模型支持模型单元,支持范围请参见产品计费

使用说明

目前支持在 创建推理接入点 购买模型单元,可以配置购买模型单元的数量、时长、是否自动续费等,详细请参见配置参数说明

  • 火山方舟于 2024 年 9 月对模型单元的产品形态进行了调整,新的模型单元为用户提供独占的算力资源,更加独立可控。同时支持按月售卖和按小时售卖两种模式,两种模式可以叠加购买,方便用户依据自己的流量灵活采购。模型单元当前支持白名单购买,如需购买新的模型单元,请提交工单联系我们。
  • 原有模型单元依然可以续费或退费,如您对原有模型单元的使用还有其他需求,也请提交工单联系我们。
  • 模型单元为您选择的模型提供了一定量的算力,您可以联系平台获取相应算力可承载的并发能力,更建议您通过实际业务流量压测,准确判断需要的模型单元数量。