当您的任务计算量大,但又无需即时返回结果,如分析当日汇总新闻信息、翻译长文本、用户反馈分析收录等大规模数据处理任务,您可以借助方舟的批量推理能力来获得更高速率限制和更大吞吐的模型推理服务。本文将帮助您通过方舟提供的API来实现批量推理任务,方便您实现自动化任务或集成到您的生产环境中。如您希望通过控制台可视化操作,请参见批量推理。
下面列举一些常见的批量推理应用场景。
应用领域 | 具体应用场景 | 描述 |
---|---|---|
内容生成与处理 | 摘要生成 | 为文章、报告或研究生成摘要,提高内容预览和搜索效率。 |
聊天机器人脚本优化 | 生成或优化对话脚本,提升聊天机器人的交互质量。 | |
数据分析与洞察 | 社交媒体分析 | 分析社交媒体上的大量数据,提取趋势和用户情绪。 |
客户反馈分析 | 处理客户反馈,提取关键信息,用于产品改进和客户服务。 | |
自然语言处理 | 文本分类与情感分析 | 对大量文本进行分类和情感分析,用于市场研究和品牌监控。 |
机器翻译 | 批量处理文本数据,实现多语言内容的快速翻译。 | |
机器学习与数据预处理 | 特征提取与数据标注 | 在机器学习项目中,自动化特征提取和数据标注,提高数据准备效率。 |
科学研究与文献管理 | 文献综述与趋势分析 | 分析大量科学文献,支持研究者进行文献综述和趋势分析。 |
自动化客户服务 | FAQ生成与客户服务指南 | 自动化生成常见问题解答和客户服务指南,提高客户服务效率。 |
当前支持批量推理的模型有:
模型名称 | 版本 | 上下文长度 | Max Tokens | TPD | 单任务超时时间 | 模型说明 |
---|---|---|---|---|---|---|
Doubao-pro-32k | 32k | 4k | 10 B | <28天 | 旗舰模型,具备强大的复杂任务处理能力,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。 | |
Doubao-lite-32k | 32k | 4k | 10 B | <28天 |
如果有其他语言模型使用批量处理服务的,请提交工单与我们沟通提升限流额度。
举例说明:主账号下,doubao-pro-32k 模型,a、b、c 3个版本的批量推理任务,每天会共用 10 b token。
通过代码调用批量推理服务,可以通过以下方式。
使用 JSONL
文件存储批量推理的任务,并上传至火山引擎对象存储(TOS) 上,通过接口创建批量任务,等待完成后结果存储在TOS中。使用教程请参见 创建批量推理任务。
请参见创建批量推理任务。
创建了批量推理接入点后,您可以使用方舟提供的批量推理 chat
接口来进行批量推理服务调用,接口体验与ChatCompletion
一致,同时提供更高吞吐。工程改造量小,允许您在chat
接口的基础上做出少许调整,即可达到更高的限流。
通过批量推理 chat
:将任务调用批量推理chat
接口推送给模型,等待结果完成后,直接返回。
ServerOverloaded
报错。请参见调用批量推理接入点。