当您的任务计算量大,但又无需即时返回结果,如分析当日汇总新闻信息、翻译长文本、用户反馈分析收录等大规模数据处理任务,您可以借助方舟的批量推理能力来获得更高速率限制和更大吞吐的模型推理服务。本文将帮助您通过方舟提供的API来实现批量推理任务,方便您实现自动化任务或集成到您的生产环境中。如您希望通过控制台可视化操作,请参见批量推理。
下面列举一些常见的批量推理应用场景。
应用领域 | 具体应用场景 | 描述 |
---|---|---|
内容生成与处理 | 摘要生成 | 为文章、报告或研究生成摘要,提高内容预览和搜索效率。 |
聊天机器人脚本优化 | 生成或优化对话脚本,提升聊天机器人的交互质量。 | |
数据分析与洞察 | 社交媒体分析 | 分析社交媒体上的大量数据,提取趋势和用户情绪。 |
客户反馈分析 | 处理客户反馈,提取关键信息,用于产品改进和客户服务。 | |
自然语言处理 | 文本分类与情感分析 | 对大量文本进行分类和情感分析,用于市场研究和品牌监控。 |
机器翻译 | 批量处理文本数据,实现多语言内容的快速翻译。 | |
机器学习与数据预处理 | 特征提取与数据标注 | 在机器学习项目中,自动化特征提取和数据标注,提高数据准备效率。 |
科学研究与文献管理 | 文献综述与趋势分析 | 分析大量科学文献,支持研究者进行文献综述和趋势分析。 |
自动化客户服务 | FAQ生成与客户服务指南 | 自动化生成常见问题解答和客户服务指南,提高客户服务效率。 |
支持开通批量推理的模型如下表。
模型名称 | 版本 | 上下文长度 | Max Tokens | TPD | 单任务超时时间 | 模型定价 |
---|---|---|---|---|---|---|
Doubao-1.5-pro-32k | 250115 | 32k | 12k | 10 B | <28天 | |
Doubao-1.5-pro-256k | 250115 | 256k | 12k | 10 B | <28天 | |
Doubao-1.5-lite-32k | 250115 | 32k | 12k | 10 B | <28天 | |
Doubao-1.5-vision-pro-32k | 250115 | 32k | 12k | 10 B | <28天 | |
Doubao-pro-32k | 32k | 4k | 10 B | <28天 | ||
Doubao-lite-32k | 32k | 4k | 10 B | <28天 | ||
Deepseek-r1 | 250120 | 64k | 8k | 10 B | <28天 | |
Deepseek-r1-distill-qwen-32b | 250120 | 64k | 8k | 10 B | <28天 | |
Deepseek-r1-distill-qwen-7b | 250120 | 64k | 8k | 10 B | <28天 | |
Deepseek-v3 | 241226 | 64k | 8k | 10 B | <28天 |
注意
调用视觉理解模型如Doubao-1.5-vision-pro-32k
进行批量推理,传入图片的方式只支持 TOS(火山引擎对象存储)链接,不支持其他图片链接以及 Base64 编码。
举例说明:您主账号下,doubao-pro-32k 模型,a、b、c 3个的批量推理任务,d、e 2个在线推理任务。则您每天a、b、c 批量推理共用 10 B token 配额,d 、e 共用在线推理任务 TPM、RPM 限流额度。
通过代码调用批量推理服务,可以通过以下方式。
使用 JSONL
文件存储批量推理的任务,并上传至火山引擎对象存储(TOS) 上,通过接口创建批量任务,等待完成后结果存储在TOS中。
使用教程请参见 创建批量推理任务。
创建了批量推理接入点后,您可以使用方舟提供的批量推理 chat
接口来进行批量推理服务调用,接口体验与ChatCompletion
一致,同时提供更高吞吐。工程改造量小,允许您在chat
接口的基础上做出少许调整,即可达到更高的限流。
使用教程请参见调用批量推理接入点。
通过批量推理 chat
:将任务调用批量推理chat
接口推送给模型,等待结果完成后,直接返回。
ServerOverloaded
报错。