You need to enable JavaScript to run this app.
导航
模型服务计费
最近更新时间:2024.12.18 17:02:26首次发布时间:2023.06.27 23:50:07

不同模型支持的能力及单价各不相同,存在多种计费方式和多种计费逻辑。不同业务类型,适合的服务以及计费方式不同,本文会从计费项目、计费方式、计费逻辑等维度帮助您了解模型服务产生的费用,帮助您规划好费用支出。

Token 概念

模型服务用量的一个重要概念是 token。在调用模型推理服务时,会将输入内容进行分词(tokenize),转化为模型可以理解的 token ,经过模型处理后,同样输出 token,并转化为您需要的文本或者其他内容载体。而模型处理(包括输入、输出)的 token 数量会被作为模型推理服务用量的一个重要计量单位。
如语言大模型推理服务费用的一种较为常见的计算方式如下:

费用 = token 使用数量 * token 单价
  • 由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token。
  • 您可以使用在线体验工具或者Tokenization-分词接口,来估算内容对应的 token 数量。

产品价格

说明

下列价格仅供参考,请以定价详情页以及实际购买页价格为准。

模型推理

大语言模型

后付费(按 token 使用量付费)

按 token 使用量(输入文本+输出文本)计费,每小时出账,按量后付费。
按 token 使用量付费适用于访问豆包大模型以及访问基于豆包大模型精调后的模型。

模型提供方

模型

上下文长度

服务类型

定价(单位:元/千 token)

计费方式

免费额度

字节跳动

Doubao-lite-4k
(包括分支版本 lite-character)

4K

推理服务(输入)

0.0003

后付费

50 万 token

推理服务(输出)

0.0006

后付费

Doubao-lite-32k

32K

推理服务(输入)

0.0003

后付费

50 万 token

推理服务(输出)

0.0006

后付费

Doubao-lite-128k

128K

推理服务(输入)

0.0008

后付费

50 万 token

推理服务(输出)

0.0010

后付费

Doubao-pro-4k
(包括分支版本 pro-character、pro-functioncall)

4K

推理服务(输入)

0.0008

后付费

50 万 token

推理服务(输出)

0.0020

后付费

Doubao-pro-32k

32K

推理服务(输入)

0.0008

后付费

50 万 token

推理服务(输出)

0.0020

后付费

Doubao-pro-128k

128K

推理服务(输入)

0.0050

后付费

50 万 token

推理服务(输出)

0.0090

后付费

Doubao-pro-256k

256K

推理服务(输入)

0.0050

后付费

50 万 token

推理服务(输出)

0.0090

后付费

智谱 AI

GLM3-130B

8K

推理服务

0.0010

后付费

50 万 token

GLM3-130B 金融模型

8K

推理服务

0.0010

后付费

50 万 token

月之暗面

Moonshot-v1-8K

8K

推理服务

0.0120

后付费

50 万 token

Moonshot-v1-32K

32K

推理服务

0.0240

后付费

50 万 token

Moonshot-v1-128K

128K

推理服务

0.0600

后付费

50 万 token

Mistral AI

Mistral-7B(开源)

32K

推理服务

免费限量测试

按模型单元付费

2024 年 9 月,火山方舟调整了模型单元的产品形态,新的模型单元具备:

  • 独占的算力资源。
  • 支持按月售卖和按小时售卖两种模式。两种模式可叠加购买,方便您依据业务流量灵活采购。

更多说明,请参见模型单元

说明

  • 模型单元当前支持白名单内购买。
  • 原有模型单元依然可以续费或退费。

模型名称

计费项

性能预估
(TPS)

定价
(元/个)

计费方式

Doubao-lite-4k

模型单元(按小时)

3000

60

后付费

模型单元(包月)

3000

28000

预付费

Doubao-lite-32k

模型单元(按小时)

3000

60

后付费

模型单元(包月)

3000

28000

预付费

Doubao-lite-128k

模型单元(按小时)

4500

240

后付费

模型单元(包月)

4500

112000

预付费

Doubao-pro-4k

模型单元(按小时)

3200

160

后付费

模型单元(包月)

3200

80000

预付费

Doubao-pro-32k

模型单元(按小时)

3200

160

后付费

模型单元(包月)

3200

80000

预付费

Doubao-pro-128k

模型单元(按小时)

3500

1200

后付费

模型单元(包月)

3500

550000

预付费

视觉理解大模型

方舟会将输入的信息(包括图片)转化为 token 后,进行计量计费。具体用量统计逻辑请参见token 用量说明

模型名称

上下文长度

服务类型

定价(单位:元/千 token)

计费方式

免费额度

Doubao-vision-lite-32k

32k

推理服务(输入)

0.0015

后付费

50万 token

推理服务(输出)

0.0045

后付费

Doubao-vision-pro-32k

32k

推理服务(输入)

0.0030

后付费

50万 token

推理服务(输出)

0.0090

后付费

文生图大模型

说明

Stable-DiffusionStable-Diffusion-XL 模型卡片暂未完全公开,如需申请使用,请联系与您对接的火山引擎销售人员。

模型提供方

模型

计费项

支持并发

定价

计费方式

字节跳动

豆包-文生图模型-智能绘图

推理服务

详见控制台

0.2 元/次

后付费 (免费额度 200 次)

RunwayML

Stable-Diffusion-1.5

模型单元(包天)

详见控制台

175 元/个

预付费

模型单元(包月)

详见控制台

4200 元/个

预付费

Stability AI

Stable-Diffusion-XL

模型单元(包天)

详见控制台

175 元/个

预付费

模型单元(包月)

详见控制台

4200 元/个

预付费

语音大模型

模型提供方

模型

服务类型

定价(单位:元/万字符)

计费方式

免费额度

字节跳动

Doubao-语音合成

推理服务

5

后付费

5000 字符

Doubao-声音复刻

推理服务

8

后付费

5000 字符

向量模型

模型提供方

模型

最长输入长度

服务类型

定价(单位:元/千 token)

计费方式

免费额度

字节跳动

Doubao-embedding

4K

推理服务(输入)

0.0005

后付费

50 万 token

Doubao-embedding-large

4K

推理服务(输入)

0.0007

后付费

50 万 token

上下文缓存计费

计费项

与普通的在线推理有所不同,使用了Session 缓存后,计费项会变更为下面几个计费项:

  • 输入内容(元/千token):使用会话缓存的有状态 API,您无需重新发送之前的对话轮次。输入token 仅代表添加到正在进行的对话中的新文本。
  • 命中缓存内容(元/千token):Context API 会自动处理之前的对话历史记录,因此在请求期间访问的所有相关的先前对话 token 都将计为缓存命中。缓存命中的计费费率会低于输入,使多轮对话更具成本效益。
  • 存储(元/千token/小时):存储按小时计费,基于每个自然小时内存储的最大token数。即使Context会一直保留,直到被删除,详细工作原理见触发过期时间。极端情况下Context 创建后没被使用,收费会持续到上下文的生存时间 (TTL) 过期。
  • 输出内容(元/千token):输出代表模型生成的内容。计费方式与标准语言模型的使用保持一致。

计费逻辑

计费单价

输入价格
元/千token

缓存存储
元/千token/小时

缓存命中
元/千token

输出价格
元/千token

Doubao-pro-32k

0.000800

0.000017

0.000160

0.002000

模型精调

大语言模型:

按 token 使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费。

模型提供方

模型

服务类型

定价(单位:元/千 token)

计费方式

字节跳动

Doubao-lite-4k

模型精调(LoRA)

0.03

后付费

Doubao-lite-32k

模型精调(LoRA)

0.03

后付费

Doubao-lite-128k

模型精调(LoRA)

0.03

后付费

Doubao-pro-4k

模型精调(LoRA)

0.05

后付费

Doubao-pro-32k

模型精调(LoRA)

0.05

后付费

Doubao-pro-128k

模型精调(LoRA)

0.05

后付费

使用限制

模型推理限制

当前对每个模型设置了 RPM(Requests Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,每个账号(含主账号下的所有子账号,合并计算)的具体限制可在开通管理页中查看。
如需提升,请联系客户经理或者提交工单

模型精调限制

每个账号会有最多可同时创建运行中的精调任务数的限制,具体限制请见控制台报错提示,若到达上限的,请耐心等待精调任务完成并释放额度后重试,或在配额管理中提交申请更多额度。

服务关停
  • 账户余额不足或账户余额小于 0 被扣为负值即为欠费。
  • 账号欠费后 2 小时内补缴所有欠费账单的,可正常使用火山方舟模型服务。若欠费后 2 小时仍未能补缴所有欠费账单,则账号下的所有火山方舟相关模型服务将无法正常使用,请及时补缴所有欠费账单以避免服务中断带来的影响。

模型单元购买说明

使用模型单元创建完成的模型推理接入点,支持对模型单元进行增减购买、到期续费配置调整。7 天内到期的模型单元会出现到期提醒。

  1. 模型单元计费会根据实际使用的模型单元数量、时长进行计费。因为是预付费,因此如果进行扩缩容的操作,也会对应有补款和退款。
  2. 模型单元到期时间说明。
    • 如您按天购买模型单元,购买资源的到期时间按照自然日计算,从购买日算起,到期时间为到期自然日+1 天的中午 12 点:即如您在 5 月 13 日上午 9 点购买一天的模型单元,相当于您购买了到期时间为 5 月 13 日 24 点的资源,实际到期时间为 5 月 14 日中午 12 点整。
    • 资源到期后将被回收,您可以在资源被回收前在方舟产品控制台或订单管理页面进行续费,回收时间为到期时间+ 48 小时,即如您在 5 月 13 日上午 9 点购买一天的模型单元,相当于您购买了到期时间为 5 月 13 日 24 点的资源,在 5 月 15 日 24 点之前都可以进行续费。在回收期结束后,模型单元无法续费,您需要重新创建一个模型推理接入点来满足继续使用的需求。
    • 强烈推荐您为资源配置自动续费,以避免由于未配置自动续费导致的业务中断。
      Image
      Image
    1. 模型单元调整、续费、退订。
      通过【模型推理】列表页,找到需要调整的接入点,点击右侧的 ··· 可以进行调整模型单元、续费、退订。
      Image
      点击续费按钮,会跳转到费用中心的续费管理页面,可以进行续费操作。
      Image

    2. 模型单元退订。
      想要退订模型单元,进入推理接入点详情页,点击退订。

      注意:因为模型单元是按实例组购买的,点击接入点名称详情中复制的模型单元 ID 是实例组 ID,实例组存在强绑定关系,因此续费、退订须同步发起。请注意,未到期的模型单元退订会产生惩罚系数,无法 100%退费。

常见问题

模型推理请求报错或者中断会计费么?