批量推理说明--火山方舟大模型服务平台-火山引擎

文档中心

导航

批量推理说明

最近更新时间：2025.02.17 15:42:37首次发布时间：2024.12.16 20:35:25

当您的任务计算量大，但又无需即时返回结果，如分析当日汇总新闻信息、翻译长文本、用户反馈分析收录等大规模数据处理任务，您可以借助方舟的批量推理能力来获得更高速率限制和更大吞吐的模型推理服务。本文将帮助您通过方舟提供的API来实现批量推理任务，方便您实现自动化任务或集成到您的生产环境中。如您希望通过控制台可视化操作，请参见批量推理。

应用场景

下面列举一些常见的批量推理应用场景。

应用领域	具体应用场景	描述
内容生成与处理	摘要生成	为文章、报告或研究生成摘要，提高内容预览和搜索效率。
内容生成与处理	聊天机器人脚本优化	生成或优化对话脚本，提升聊天机器人的交互质量。
数据分析与洞察	社交媒体分析	分析社交媒体上的大量数据，提取趋势和用户情绪。
数据分析与洞察	客户反馈分析	处理客户反馈，提取关键信息，用于产品改进和客户服务。
自然语言处理	文本分类与情感分析	对大量文本进行分类和情感分析，用于市场研究和品牌监控。
自然语言处理	机器翻译	批量处理文本数据，实现多语言内容的快速翻译。
机器学习与数据预处理	特征提取与数据标注	在机器学习项目中，自动化特征提取和数据标注，提高数据准备效率。
科学研究与文献管理	文献综述与趋势分析	分析大量科学文献，支持研究者进行文献综述和趋势分析。
自动化客户服务	FAQ生成与客户服务指南	自动化生成常见问题解答和客户服务指南，提高客户服务效率。

支持的模型

支持开通批量推理的模型如下表。

部分模型不可在控制台选择，需提交工单与我们沟通使用需求后开通。
近期方舟会开放更多模型和模型版本，如您近期有其他模型、模型版本批量推理的需求，请提交工单与我们沟通。

模型名称	版本	上下文长度	Max Tokens 可配置最大输出长度	TPD 每天Tokens处理数	单任务超时时间	模型定价
Doubao-1.5-pro-32k	250115	32k	12k`升级`	10 B	<28天	按 token 使用量付费（后付费）
Doubao-1.5-pro-256k	250115	256k	12k`升级`	10 B	<28天	按 token 使用量付费（后付费）
Doubao-1.5-lite-32k	250115	32k	12k`升级`	10 B	<28天	按 token 使用量付费（后付费）
Doubao-1.5-vision-pro-32k	250115	32k	12k`升级`	10 B	<28天	视觉理解大模型
Doubao-pro-32k	见Doubao-pro	32k	4k	10 B	<28天	按 token 使用量付费（后付费）
Doubao-lite-32k	见Doubao-lite	32k	4k	10 B	<28天	按 token 使用量付费（后付费）
Deepseek-r1	250120	64k	8k	10 B	<28天	按 token 使用量付费（后付费）
Deepseek-r1-distill-qwen-32b	250120	64k	8k	10 B	<28天	按 token 使用量付费（后付费）
Deepseek-r1-distill-qwen-7b	250120	64k	8k	10 B	<28天	按 token 使用量付费（后付费）
Deepseek-v3	241226	64k	8k	10 B	<28天	按 token 使用量付费（后付费）

使用说明

视觉理解

注意

调用视觉理解模型如Doubao-1.5-vision-pro-32k进行批量推理，传入图片的方式只支持 TOS（火山引擎对象存储）链接，不支持其他图片链接以及 Base64 编码。

配额说明

批量推理限流数 TPD 计算逻辑：
- 同账号下按照模型名称（如 doubao-pro-32k 所有版本）汇总计算。
- 不与在线推理使用方式的限流数合并计算。
举例说明：您主账号下，doubao-pro-32k 模型，a、b、c 3个的批量推理任务，d、e 2个在线推理任务。则您每天a、b、c 批量推理共用 10 B token 配额，d 、e 共用在线推理任务 TPM、RPM 限流额度。
方舟对批量推理设置限流的原则是保障用户之间资源分配的公平性、管理库存以及防止滥用或误用接口造成平台过载而服务中断。如您有实际业务需求需要每天处理更多数据，请提交工单与我们沟通提升限流额度。
当在所有用户限流内的请求都处理完平台依然有剩余资源时，将为您自动动态扩展每天Token处理数，更高效完成批量推理任务。
TPD的时间计算窗口为24小时滑动窗口。

调用方式

通过代码调用批量推理服务，可以通过以下方式。

创建批量推理任务

使用 JSONL 文件存储批量推理的任务，并上传至火山引擎对象存储（TOS）上，通过接口创建批量任务，等待完成后结果存储在TOS中。
使用教程请参见创建批量推理任务。

适用场景

数据已经静态存储在火山对象存储或其他云厂商的对象存储、HDFS、ES中。
数据量大，每天处理数据量超过100 Billion Tokens或更高。
多模态模型批量推理，对网络带宽压力大。

优劣势

优势
- 适合超大规模数据处理或占网络带宽大的场景。
- 平台托管了所有请求的资源调度，吞吐最优。
劣势：
- 数据上传、分片、切分目录带来一定工程改造量。

调用批量推理接入点

创建了批量推理接入点后，您可以使用方舟提供的批量推理 chat 接口来进行批量推理服务调用，接口体验与ChatCompletion一致，同时提供更高吞吐。工程改造量小，允许您在chat接口的基础上做出少许调整，即可达到更高的限流。
使用教程请参见调用批量推理接入点。

工作原理

通过批量推理 chat ：将任务调用批量推理chat接口推送给模型，等待结果完成后，直接返回。

适用场景

数据非静态存储在对象存储中，数据的整理改造复杂的场景。
您调用方舟模型的上下游都是在线链路，无法改成离线链路，或调用单一模型只是整个智能体链路中的一环。

优劣势

优势：工程改造量工作量少。
劣势：
- 白天高峰期间会收到较多 ServerOverloaded 报错。
- 每日吞吐由平台资源限制与用户并发控制共同决定，每日吞吐相对不可控。