You need to enable JavaScript to run this app.
导航
批量推理
最近更新时间:2024.12.17 19:35:23首次发布时间:2024.07.29 16:23:51

功能介绍

批量推理(Batch Inference)适用于无需实时响应的推理场景,可以一次性离线处理大量数据。
相比在线推理,批量推理提供更高额度的访问限制,用户无需关注单次请求的执行情况,适合于模型评测、批量回归等场景。
目前火山方舟平台支持以下模型的批量推理:

  • Doubao-pro-32k
  • Doubao-lite-32k

如您希望提升批量推理总限频,或者有其他的语言模型需要进行批量推理,您可以发起工单申请。

类型选择

方舟为您提供两种方式使用批量推理服务。

  • 批量推理任务:业界常规的批量、离线使用模式,使用离线链路。需要配合火山引擎对象存储(TOS)使用。
  • 批量推理接入点:不需要依赖存储,直接请求方舟模型接口。和在线推理当前的使用方式接近。

选型推荐信息如下。

批量推理任务

批量推理接入点

内测中,开白使用,正常计费

适合场景

  • 数据已经静态存储在火山对象存储或其他云厂商的对象存储、HDFS、ES 中。
  • 数据量大,每天处理数据量超过 100 Billion Tokens 或更高。
  • 对网络带宽压力大的批量推理。
  • 数据非静态存储在对象存储中,数据的整理改造复杂。
  • 用户调用方舟模型的上下游都是在线链路,无法改成离线链路,或调用单一模型只是整个智能体链路中的一环。

优势

  • 更适合超大规模数据处理或占网络带宽大的场景。
  • 平台托管了所有请求的资源调度,吞吐最优。
  • 工程改造量极少。

劣势

  • 数据上传、分片、切分目录带来一定工程改造量。
  • 白天高峰期间会收到较多 ServerOverloaded 报错。
  • 每日吞吐由平台资源限制与用户并发控制共同决定,每日吞吐相对不可控。

创建批量推理任务

业界常规的批量、离线使用模式,使用离线链路。需要配合火山引擎对象存储(TOS)使用。

使用流程

1.准备与上传文件

请参照 数据文件格式说明准备包含您要进行推理的请求的输入文件,并确保账户已启用 TOS,之后将准备好的输入文件上传至您的 TOS 中。

2.创建批量推理任务

在「批量推理」页面,点击左上角 创建批量任务 按钮跳转至创建页。
Image
填写批量推理任务表单,包括任务基本信息、推理配置、数据配置等,填写完成之后点击页面右侧 创建批量推理任务 按钮提交任务。
Image
表单配置字段具体填写说明如下:

字段名

描述及填写规范

任务名称

必填;给本次批量推理任务命名,方便记录检索;支持 1~200 位可见字符,且仅包含大小写英文字母、汉字、数字、短划线(-)、下划线(_)。

任务描述

选填;给本次批量推理任务添加除名称以外的其他描述信息,方便多次迭代版本,重要信息记录;支持 1~300 位可见字符

模型选择

必填;可选择模型广场与模型仓库中支持批量推理的模型版本,只允许选择单个模型版本

购买方式

必填;仅支持「按 Token 计费」的后付费方式

最长等待时间

选填;以天为单位,若填写此字段,将从任务提交时间开始计时,如果在设置的时间内未能完成,该任务将自动停止,批次中未处理的请求将被取消,用户可以获取已完成请求的结果文件;若不填写此字段,批量推理任务将默认持续运行;此参数无法在任务创建后修改

输入数据

必填;要进行批量推理的输入文件,可填入或选择数据在 TOS 中的储存位置,仅支持选择单个文件

输出数据

必填;输出文件在 TOS 中的存储位置(TOS 路径),可填入或选择数据在 TOS 中的储存位置

3. 查看与管理批量推理任务

可在批量推理任务列表页、或点击批量推理任务名称进入任务详情页,查看批量推理任务的信息,包括任务基本信息、状态、进度(包含已处理请求数量/总请求数量,以及已处理请求中失败的数量)、配置信息等。
您可在列表页或详情页管理批量任务,如编辑任务信息、终止任务、查看结果、删除任务等。
Image
批量推理任务状态与对应描述如下:

状态

描述

排队中

任务由于账号下并发任务数达到上限等原因需排队等候

运行中

任务正在运行中

完成

所有请求已经处理完毕,任务已完成

停止中

由于到期等系统原因或手动终止,任务当前处于取消中状态

已停止

任务已被取消

失败

输入文件校验失败或其他原因导致任务失败

重启

对于失败或停止的任务,可通过重启继续处理未完成的推理请求,已完成的请求将自动跳过

4.查看结果文件

在批量推理任务运行结束后,可点击 查看结果 按钮或在详情页的「文件信息」中点击跳转至 TOS 页面查看并下载结果文件。
Image
结果文件的 TOS 存储路径如下:
• 结果文件:{OutputDirectory}/{batch_job_id}/output/results.jsonl
• 错误信息文件:{OutputDirectory}/{batch_job_id}/error/errors.jsonl

数据文件格式说明

输入文件

输入文件为一个.jsonl文件,其中每行包含对 API 的单个请求的详细信息。

  • 默认最大文件大小为 500 MiB;如有需要您可以提交工单申请提高输入文件大小上限,最高可支持 8 GiB。
  • 每个请求都必须包含一个唯一custom_id值(jsonl文件中唯一),便于您使用该值在结果数据中找到对应的请求。
  • 每条 request 都是独立的请求,独立发出,独立收到结果。如有多个请求有相同提示词,也需要在请求中都加上对应的相同的提示词。
  • 每行body字段中的参数与底层模型调用 API 的 request body 中参数相同,为一个合法的JSON Object

以下是一个使用 Chat 模型进行批量推理的输入文件示例,包含 2 个请求:

{"custom_id": "request-1", "body": {"messages": [{"role": "user", "content": "天空为什么这么蓝?"}],"max_tokens": 1000,"top_p":1}}
{"custom_id": "request-2", "body": {"messages": [{"role": "system", "content": "You are an unhelpful assistant."},{"role": "user", "content": "天空为什么这么蓝?"}],"max_tokens": 1000}}

输出文件

  • 结果文件为一个.jsonl 文件results.jsonl,输入文件中的每个成功请求行对应结果文件中的一个响应行,示例如下:
{"id": "batch-req-123", "custom_id": "request-1", "response": {"status_code": 200, "request_id": "req1", "body": {"id": "chatcmpl-9P3WtvGUhW5Ty91CdlcBJPgqh1rGG", "object": "chat.completion", "created": 1711111111, "model": "doubao-pro-32k-seed-stg-240515", "choices": [{"index": 0, "message": {"role": "assistant", "content": "天空呈现蓝色是因为“瑞利散射”现象。简单来说,就是当太阳光进入地球大气层时,波长较长的红光、橙光、黄光能穿透大气层,直接射到地面,而波长较短的蓝、紫、靛等色光,很容易被悬浮在空气中的微粒阻挡,从而使光线散射向四方,使天空呈现出蔚蓝色。"}, "logprobs": null, "finish_reason": "stop"}], "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}}}, "error": null}
  • 任何失败的请求都会将其错误信息写入错误文件errors.jsonl,每个失败请求行对应错误文件中的一个响应行,示例如下:
{"id":"batch-req-456","custom_id":"request-2","response":null,"error":{"code":"AccessDenied","type":"Forbidden","message":"The request failed because you do not have access to the requested resource."}}

调用批量推理推入点

不需要依赖存储,直接请求方舟模型接口。和在线推理当前的使用方式接近。

使用流程

1.创建批量推理接入点

  1. 打开批量推理创建页面
  2. 按照页面进行配置,在 调用方式 配置项,选择 创建批量推理接入点。

    目前功能需要开白使用,如您有需要,请工单申请。

2.使用批量推理接入点 SDK 进行批量推理

具体调用方式请参见示例代码

限频与配额

任务限频

批量推理任务的限频单位是 TPD(Tokens Per Day),指 24 小时内消耗的最大 token 总量。
此限频是基于模型设定的,账户下使用同一模型的所有批量推理任务共享该限频额度。此外,批量推理任务限频与在线推理的模型限频分离,因此运行批量推理任务不会消耗模型的在线推理限频。
平台提供的限频额度为:

  • Doubao-pro-32k:10B Token per Day。
  • Doubao-lite-32k:10B Token per Day

如您希望提升批量推理总限频,或者有其他的语言模型需要进行批量推理,您可以在前端页面右下角的帮助按钮发起工单申请。

任务配额

  • 账户维度有如下配额:
    • 一个项目下 7 天内提交的批量推理任务数量最多为 500,超出时将暂时无法提交新的任务。
    • 一个项目下同时处于「运行中」状态的批量推理任务数量最多为 3,超出时其余任务将处于「排队中」状态等待运行。
      • 请注意,账号下实际同时运行的任务数量会受到平台总体资源的限制和任务调度策略的影响。

计费

批量推理按 tokens 用量后付费,您仅需要为已处理的请求消耗的 token 量付费,具体用量可在批量推理任务详情页「Tokens 使用量」查看。

说明

批量推理暂不支持使用免费试用额度抵扣。

相关文档

常见问题