模型单元--火山方舟大模型服务平台-火山引擎

文档中心

立即注册

导航

模型单元

最近更新时间：2025.03.24 15:42:36首次发布时间：2025.03.24 11:59:23

模型单元是调用某个特定模型的 TPM（Token per Minute，单位时间 token 的使用量）配额。选择购买模型单元，通常可以获得更大的模型服务调用的并发量，使用量的计算单位也会从 token 使用量，变为模型单元的使用时长。

适用场景

集中典型的应用场景如下：

线上生产业务，对资源确定性要求高，希望在流量峰值必须保障资源。
模型经过 LoRA 精调后，在推理时获得更低延迟。
模型经过全量精调后，在推理时获得更低延迟。
实际业务并发高，TPM、RPM（Request per Minute，单位时间请求量）超过方舟平台默认的限定值。

支持模型

以下 Doubao 系列模型支持模型单元，费用情况请参见按模型单元付费。

具体支持模型情况，以控制台显示为准。

doubao-lite-4k
doubao-lite-32k
doubao-lite-128k
doubao-pro-4k
doubao-pro-32k
doubao-pro-128k

使用说明

火山方舟于 2024 年 9 月对模型单元的产品形态进行了调整，新的模型单元为用户提供独占的算力资源，更加独立可控。同时支持按月售卖和按小时售卖两种模式，两种模式可以叠加购买，方便用户依据自己的流量灵活采购。模型单元当前支持白名单购买，如需购买新的模型单元，请提交工单联系我们。
原有模型单元依然可以续费或退费，如您对原有模型单元的使用还有其他需求，也请提交工单联系我们。
模型单元为您选择的模型提供了一定量的算力，您可以联系平台获取相应算力可承载的并发能力，更建议您通过实际业务流量压测，准确判断需要的模型单元数量。
模型单元预计可承载性能（Tokens Per Second，TPS）是按照输入：输出 = 10:1 的数据压测得到。实际用户的输入输出比例对性能的影响较大，建议您通过实际业务流量压测，准确判断需要的模型单元数量。
Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低。

购买说明

目前支持在创建推理接入点购买模型单元，可以配置购买模型单元的数量、时长、是否自动续费等，详细请参见配置参数说明。

当前 TPM保障包需加入白名单才可购买，可通过工单onCall申请。
如果业务对于延时有需求，请通过工单onCall提需求。

访问方舟控制台-在线推理，切换到“自定义推理接入点”页签，单击 创建推理接入点 按钮。

在打开的页面中填写接入点名称，选择模型类型，并选择购买方式为”按单元付费“。

如果您无法购买，请按照控制台上的提示提交工单申请。

选择需要购买的单元数量，并选择计费方式为”后付费“或”预付费“。其他相关配置参数可以查看配置参数说明。

配置参数说明

配置名称	配置说明
计费类型	必填，当选择了按模型单元付费，需要选择计费类型。后付费：按照模型单元运行时长付费，适合模型推理服务波动较大或者无法预测的场景，使用更加灵活。说明购买后付费模型单元的前提是账号中的余额大于 100 元，否则无法成功下单。预付费：按月预留资源，提供更优惠价格，适合模型推理服务波动较小，可预测的场景。 *** 组合使用**：预付费模型单元和后付费模型单元叠加使用在推理接入点。创建推理接入点时只能选择 1 种计费类型，操作叠加购买多种模型单元，需要创建完成推理接入点后，在推理接入点详情页进行配置。说明如下图所示，日常有基础访问次数以及在某时间段有高峰期的时段，可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格；再通过购买灵活变动的后付费模型单元，来应对高峰期的超出基础次数的模型服务请求。
购买时长	必填。选择模型单元购买时长，即模型单元包月的时长。
自动续费	选填，费用到期后，是否自动续费。说明推荐您开通自动续费，可避免续费不及时导致业务中断。
单次自动续费时长	必填，当开启了自动续费，需要配置每次触发自动续费时，下个模型单元包月的时长。
自动续费次数	必填，当开启了自动续费，需要配置自动续费执行的次数。