You need to enable JavaScript to run this app.
导航
批量推理说明
最近更新时间:2024.12.16 20:35:25首次发布时间:2024.12.16 20:35:25

当您的任务计算量大,但又无需即时返回结果,如分析当日汇总新闻信息、翻译长文本、用户反馈分析收录等大规模数据处理任务,您可以借助方舟的批量推理能力来获得更高速率限制和更大吞吐的模型推理服务。本文将帮助您通过方舟提供的API来实现批量推理任务,方便您实现自动化任务或集成到您的生产环境中。如您希望通过控制台可视化操作,请参见批量推理

应用场景

下面列举一些常见的批量推理应用场景。

应用领域

具体应用场景

描述

内容生成与处理

摘要生成

为文章、报告或研究生成摘要,提高内容预览和搜索效率。

聊天机器人脚本优化

生成或优化对话脚本,提升聊天机器人的交互质量。

数据分析与洞察

社交媒体分析

分析社交媒体上的大量数据,提取趋势和用户情绪。

客户反馈分析

处理客户反馈,提取关键信息,用于产品改进和客户服务。

自然语言处理

文本分类与情感分析

对大量文本进行分类和情感分析,用于市场研究和品牌监控。

机器翻译

批量处理文本数据,实现多语言内容的快速翻译。

机器学习与数据预处理

特征提取与数据标注

在机器学习项目中,自动化特征提取和数据标注,提高数据准备效率。

科学研究与文献管理

文献综述与趋势分析

分析大量科学文献,支持研究者进行文献综述和趋势分析。

自动化客户服务

FAQ生成与客户服务指南

自动化生成常见问题解答和客户服务指南,提高客户服务效率。

适用模型

当前支持批量推理的模型有:

模型名称

版本

上下文长度

Max Tokens
最大输出长度

TPD
每天Tokens处理数

单任务超时时间

模型说明

Doubao-pro-32k

Doubao-pro [热门]

32k

4k

10 B

<28天

旗舰模型,具备强大的复杂任务处理能力,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。

Doubao-lite-32k

Doubao-pro [热门]

32k

4k

10 B

<28天

如果有其他语言模型使用批量处理服务的,请提交工单与我们沟通提升限流额度。

限流说明
  • 批量推理限流数 TPD 计算逻辑:
    • 同账号下按照模型名称(如Doubao-pro-32k 所有版本)汇总计算。
    • 不与在线推理使用方式的限流数合并计算。

    举例说明:主账号下,doubao-pro-32k 模型,a、b、c 3个版本的批量推理任务,每天会共用 10 b token。

  • 方舟对批量推理设置限流的原则是保障用户之间资源分配的公平性、管理库存以及防止滥用或误用接口造成平台过载而服务中断。如您有实际业务需求需要每天处理更多数据,请提交工单与我们沟通提升限流额度。
  • 当在所有用户限流内的请求都处理完平台依然有剩余资源时,将为您自动动态扩展每天Token处理数,更高效完成批量推理任务。
  • TPD的时间计算窗口为24小时滑动窗口。

调用方式

通过代码调用批量推理服务,可以通过以下方式。

创建批量推理任务

使用 JSONL 文件存储批量推理的任务,并上传至火山引擎对象存储(TOS) 上,通过接口创建批量任务,等待完成后结果存储在TOS中。使用教程请参见 创建批量推理任务

批量推理任务接口

适用场景

  • 数据已经静态存储在火山对象存储或其他云厂商的对象存储、HDFS、ES中。
  • 数据量大,每天处理数据量超过100 Billion Tokens或更高。
  • 多模态模型批量推理,对网络带宽压力大。

优劣势

  • 优势
    • 适合超大规模数据处理或占网络带宽大的场景。
    • 平台托管了所有请求的资源调度,吞吐最优。
  • 劣势:
    • 数据上传、分片、切分目录带来一定工程改造量。

使用教程及说明

请参见创建批量推理任务

调用批量推理接入点

创建了批量推理接入点后,您可以使用方舟提供的批量推理 chat 接口来进行批量推理服务调用,接口体验与ChatCompletion一致,同时提供更高吞吐。工程改造量小,允许您在chat接口的基础上做出少许调整,即可达到更高的限流。

工作原理

通过批量推理 chat :将任务调用批量推理chat接口推送给模型,等待结果完成后,直接返回。

适用场景

  • 数据非静态存储在对象存储中,数据的整理改造复杂的场景。
  • 您调用方舟模型的上下游都是在线链路,无法改成离线链路,或调用单一模型只是整个智能体链路中的一环。

优劣势

  • 优势:工程改造量工作量少。
  • 劣势:
    • 白天高峰期间会收到较多 ServerOverloaded 报错。
    • 每日吞吐由平台资源限制与用户并发控制共同决定,每日吞吐相对不可控。

使用教程

请参见调用批量推理接入点